NRMCB | 华中农大何春江团队系统评述环状RNA数据库

环状RNA（circRNA）是一类由前体mRNA经反向剪接（back-splicing）形成的闭合分子，主要通过与DNA、RNA及蛋白质相互作用发挥调控功能，部分亦具备蛋白质编码潜力。近年来，高通量测序技术的普及推动了海量circRNA的鉴定，积累了涵盖表达谱、结构特征与功能注释的庞大数据资源。面对繁复的生物信息学工具，如何精准选用针对组织与物种特异性、RNA加工、分子互作、翻译潜能及疾病关联的专用数据库，已成为推进circRNA基础研究与转化应用的关键。

近日，华中农业大学何春江教授团队在Nature Reviews Molecular Cell Biology发表综述论文：“Overview of circular RNA databases and other resources”。

该综述系统梳理了当前主流的circRNA数据库，按照基础注释、组织/物种特异性、分子互作、翻译潜能及疾病关联等维度进行了系统分类。同时，文章分析了现有数据库在命名标准化、数据异质性、实验验证及维护更新方面的局限性。作者进一步探讨了circRNA作为新型治疗分子和蛋白表达载体的应用潜力，并对未来专门用于辅助治疗性circRNA设计的计算平台建设进行了系统性展望，为基础研究和临床转化提供了参考。

基础与综合数据库

目前已有多类数据库用于存储和注释circRNA信息。早期数据库如circBase主要提供基因组定位和来源信息；综合平台如circAtlas 3.0和CIRCpedia v3则整合短读长与长读长测序数据，扩展了表达模式、编码潜能、疾病关联等多维注释。其中，circAtlas 3.0收录10种脊椎动物超过300万条circRNA序列，CIRCpedia v3整合20个物种的2000余个测序数据集，注释约260万个circRNA，并提供治疗性优化、亚细胞定位预测和多分子互作分析等功能模块。

组织与物种特异性数据库

为解析circRNA在不同组织、细胞类型及物种中的表达特异性，研究人员构建了多个专用数据库。TSCD聚焦人类和小鼠组织特异性circRNA，提供基因组坐标、组织分布、表达谱及跨组织表达比较工具。PlantcircBase整合21种植物的转录组和纳米孔测序数据，提供全长序列、保守性及单细胞表达信息；VirusCircBase 2.0则收录43种病毒circRNA，并注释其序列、保守性和功能特征。

circRNA加工与修饰数据库

与线性RNA类似，circRNA也会经历可变剪接、编辑及其他转录后修饰，相关过程的解析与注释对于探索其功能具有重要意义。circASbase聚焦circRNA内部可变剪接，注释7类内部可变剪接事件，并区分其来源于线性转录本或环状转录本。m6A是重要的转录后修饰，也是circRNA非帽依赖性翻译的机制之一；m6A2Circ整合测序数据和实验证据，系统鉴定人类和小鼠circRNA上的m6A修饰，并提供功能及疾病关联注释。

circRNA分子互作数据库

circRNA的主要功能之一是结合并调控其他大分子，尤其作为miRNA或RNA结合蛋白的“海绵”。相关数据库整合了人类和小鼠样本的 RIP-seq、CLIP-seq、SPLASH和RIC-seq等高通量数据，并提供二级结构预测、疾病相关变异及功能注释。以CircTarget为例，它整合多种测序数据，在人类和小鼠转录组中鉴定约13万个高可信度的circRNA-RNA互作，并提供互作位点、双链结构及疾病相关变异注释，为研究circRNA调控机制提供可靠资源。

circRNA翻译潜能数据库

随着越来越多circRNA被证实具有翻译潜能，相关翻译数据库逐步建立。这些平台整合核糖体结合、翻译起始位点、质谱数据、内部核糖体进入位点（IRES）、m6A位点及开放阅读框（ORF）等多类翻译证据，用于系统评估circRNA的编码潜力。以TransCirc为例，该数据库收录超过32万条人类circRNA序列，并整合7类翻译证据，为评估circRNA编码能力提供了综合资源；riboCIRC等数据库则进一步提供circRNA编码多肽的理化性质、结构特征及功能注释。

circRNA疾病相关数据库

circRNA与多种疾病的发生发展密切相关。相关数据库整合高通量测序、实验证据和文献挖掘结果，覆盖癌症、免疫疾病、代谢疾病、炎症及衰老等状态，并提供分子互作网络、表达分析和引物设计等工具。其中，circRNADisease v2.0收录4000多个经实验验证的疾病相关circRNA；circAge汇编不同组织和年龄组的衰老相关circRNA，并提供表达谱、调控网络及功能预测信息。

现有数据库局限性与未来展望

数据库局限性

命名缺乏标准化：多数平台使用自定义ID、宿主基因符号或基因组坐标，无法直观区分同源circRNA异构体，阻碍跨数据库比对。仅少数平台（如 circAtlas 3.0和CIRCpedia v3）采用标准化命名。

数据与算法异质性：不同数据库在样本来源、建库策略、分析流程、生信工具及筛选阈值方面存在差异，导致数据重现性和兼容性不足。建议结合多个数据库进行交叉验证。

实验验证不足：大多数功能注释（如分子互作、翻译潜能）仍依赖计算预测，湿实验验证比例有限，例如需 CLIP-seq 或质谱支持。

维护与更新滞后：部分数据库在发表后缺乏持续更新或访问不稳定，降低长期参考价值。

未来展望

circRNA具有高稳定性和低免疫原性，并可通过优化IRES和UTR序列实现高效蛋白表达，具备作为治疗分子和蛋白质表达载体的应用潜力。当前仍缺乏面向治疗性circRNA设计的专用数据库，未来可整合适体序列、IRES元件、编码区/UTR序列及二级结构等信息，建设专业化辅助设计平台，以推动circRNA疗法研发与转化应用。

总结

该综述系统梳理了现有circRNA数据库资源，归纳了其在命名标准化、数据一致性、实验验证及维护更新方面的主要局限，并对未来治疗性circRNA辅助设计平台的建设方向进行了展望。通过整合资源现状、应用场景与发展需求，文章为circRNA基础研究、数据库选用及转化应用提供了重要参考。

原文链接：

https://www.nature.com/articles/s41580-026-00985-x

NRMCB | 华中农大何春江团队系统评述环状RNA数据库

发表评论 取消回复

发表评论取消回复