环状RNA(circRNA)是一类由前体mRNA经反向剪接(back-splicing)形成的闭合分子,主要通过与DNA、RNA及蛋白质相互作用发挥调控功能,部分亦具备蛋白质编码潜力。近年来,高通量测序技术的普及推动了海量circRNA的鉴定,积累了涵盖表达谱、结构特征与功能注释的庞大数据资源。面对繁复的生物信息学工具,如何精准选用针对组织与物种特异性、RNA加工、分子互作、翻译潜能及疾病关联的专用数据库,已成为推进circRNA基础研究与转化应用的关键。

近日,华中农业大学何春江教授团队Nature Reviews Molecular Cell Biology发表综述论文:“Overview of circular RNA databases and other resources”。

该综述系统梳理了当前主流的circRNA数据库,按照基础注释、组织/物种特异性、分子互作、翻译潜能及疾病关联等维度进行了系统分类。同时,文章分析了现有数据库在命名标准化、数据异质性、实验验证及维护更新方面的局限性。作者进一步探讨了circRNA作为新型治疗分子和蛋白表达载体的应用潜力,并对未来专门用于辅助治疗性circRNA设计的计算平台建设进行了系统性展望,为基础研究和临床转化提供了参考。

图片

基础与综合数据库

目前已有多类数据库用于存储和注释circRNA信息。早期数据库如circBase主要提供基因组定位和来源信息;综合平台如circAtlas 3.0和CIRCpedia v3则整合短读长与长读长测序数据,扩展了表达模式、编码潜能、疾病关联等多维注释。其中,circAtlas 3.0收录10种脊椎动物超过300万条circRNA序列,CIRCpedia v3整合20个物种的2000余个测序数据集,注释约260万个circRNA,并提供治疗性优化、亚细胞定位预测和多分子互作分析等功能模块。

组织与物种特异性数据库

为解析circRNA在不同组织、细胞类型及物种中的表达特异性,研究人员构建了多个专用数据库。TSCD聚焦人类和小鼠组织特异性circRNA,提供基因组坐标、组织分布、表达谱及跨组织表达比较工具。PlantcircBase整合21种植物的转录组和纳米孔测序数据,提供全长序列、保守性及单细胞表达信息;VirusCircBase 2.0则收录43种病毒circRNA,并注释其序列、保守性和功能特征。

circRNA加工与修饰数据库

与线性RNA类似,circRNA也会经历可变剪接、编辑及其他转录后修饰,相关过程的解析与注释对于探索其功能具有重要意义。circASbase聚焦circRNA内部可变剪接,注释7类内部可变剪接事件,并区分其来源于线性转录本或环状转录本。m6A是重要的转录后修饰,也是circRNA非帽依赖性翻译的机制之一;m6A2Circ整合测序数据和实验证据,系统鉴定人类和小鼠circRNA上的m6A修饰,并提供功能及疾病关联注释。

circRNA分子互作数据库

circRNA的主要功能之一是结合并调控其他大分子,尤其作为miRNA或RNA结合蛋白的“海绵”。相关数据库整合了人类和小鼠样本的 RIP-seq、CLIP-seq、SPLASH和RIC-seq等高通量数据,并提供二级结构预测、疾病相关变异及功能注释。以CircTarget为例,它整合多种测序数据,在人类和小鼠转录组中鉴定约13万个高可信度的circRNA-RNA互作,并提供互作位点、双链结构及疾病相关变异注释,为研究circRNA调控机制提供可靠资源。

circRNA翻译潜能数据库

随着越来越多circRNA被证实具有翻译潜能,相关翻译数据库逐步建立。这些平台整合核糖体结合、翻译起始位点、质谱数据、内部核糖体进入位点(IRES)、m6A位点及开放阅读框(ORF)等多类翻译证据,用于系统评估circRNA的编码潜力。以TransCirc为例,该数据库收录超过32万条人类circRNA序列,并整合7类翻译证据,为评估circRNA编码能力提供了综合资源;riboCIRC等数据库则进一步提供circRNA编码多肽的理化性质、结构特征及功能注释。

circRNA疾病相关数据库

circRNA与多种疾病的发生发展密切相关。相关数据库整合高通量测序、实验证据和文献挖掘结果,覆盖癌症、免疫疾病、代谢疾病、炎症及衰老等状态,并提供分子互作网络、表达分析和引物设计等工具。其中,circRNADisease v2.0收录4000多个经实验验证的疾病相关circRNA;circAge汇编不同组织和年龄组的衰老相关circRNA,并提供表达谱、调控网络及功能预测信息。

现有数据库局限性与未来展望

数据库局限性

命名缺乏标准化:多数平台使用自定义ID、宿主基因符号或基因组坐标,无法直观区分同源circRNA异构体,阻碍跨数据库比对。仅少数平台(如 circAtlas 3.0和CIRCpedia v3)采用标准化命名。

数据与算法异质性:不同数据库在样本来源、建库策略、分析流程、生信工具及筛选阈值方面存在差异,导致数据重现性和兼容性不足。建议结合多个数据库进行交叉验证。

实验验证不足:大多数功能注释(如分子互作、翻译潜能)仍依赖计算预测,湿实验验证比例有限,例如需 CLIP-seq 或质谱支持。

维护与更新滞后:部分数据库在发表后缺乏持续更新或访问不稳定,降低长期参考价值。

未来展望

circRNA具有高稳定性和低免疫原性,并可通过优化IRES和UTR序列实现高效蛋白表达,具备作为治疗分子和蛋白质表达载体的应用潜力。当前仍缺乏面向治疗性circRNA设计的专用数据库,未来可整合适体序列、IRES元件、编码区/UTR序列及二级结构等信息,建设专业化辅助设计平台,以推动circRNA疗法研发与转化应用。

总结

该综述系统梳理了现有circRNA数据库资源,归纳了其在命名标准化、数据一致性、实验验证及维护更新方面的主要局限,并对未来治疗性circRNA辅助设计平台的建设方向进行了展望。通过整合资源现状、应用场景与发展需求,文章为circRNA基础研究、数据库选用及转化应用提供了重要参考。

原文链接:

https://www.nature.com/articles/s41580-026-00985-x

图片

图片

发表评论