​环状RNA(circRNA)是一类共价闭合的RNA分子,具有独特的稳定性和多样的生物学功能,可以调控基因表达,参与疾病发病机制等。然而,circRNA表达水平较低、与线性RNA序列的高相似性较高、独特的环状结构,为其检测和功能研究带来了巨大挑战。

近日,中国科学院动物研究所赵方庆、张金阳研究团队Nature Genetics上发表综述文章:Circular RNA discovery with emerging sequencing and deep learning technologies。文章概述了circRNA的定量分析(鉴定和定量、环状和线性RNA比例、差异表达分析)、序列重构(短读长测序、长度长测序)、细胞和空间特异性表达(单细胞测序、深度学习)、功能表征(数据库预测、深度学习预测)等方法的最新进展和挑战,着重讨论了最新测序技术和人工智能在circRNA研究和应用中的关键作用,并提出了人工智能驱动circRNA研究和应用的理论框架和实践路径。

circRNA的定量分析

circRNA的反向剪接位点(BSJ)是鉴定circRNA必不可少的独特的非共线性比对特征。(图1)标准circRNA分析首先从RNA-seq数据中识别反向剪接位点(BSJ),然后进行基因表达量化、差异表达等分析。circRNA特异性分析,如差异反向剪接和可变反剪接分析,可阐明circRNA生物发生的复杂变化,可研究对线性和环状RNA剪接的动态竞争,以及不同BSJ位点的切换。

图1 circRNA特征性BSJ位点。

circRNA鉴定和定量

一般与参考基因组的分段比对,或通过与模拟BSJ序列的伪参考的直接比对鉴定BSJ位点。(图2)

图2 BSJ识别与定量

circRNA鉴定和定量工具:基于标准比对算法(BWA、Bowtie等)进行从头环状RNA识别,如:CIRI2、find_circ、PTES-Finder和UROBORUS等;依赖STAR、TopHat-Fusion等嵌合比对工具的circRNA_finder、CircSplice、DCC和CIRCexplorer2等;专用反向剪接识别工具MapSplice、SPLASH2、segmehl等。

环状和线性RNA比例评估

circRNA的形成依赖于反向剪接与常规剪接的竞争。环状和线性RNA比例是衡量circRNA形成过程中特定剪接位点利用率的关键。

① 反向剪接比值:计算反向剪接与同一剪接位点的总剪接(反向+正向)读数比值(类似mRNA剪接比PSI),反映了反向剪接相对于正向剪接的相对比例,以及特定BSJ的使用效率。这些工具有CIRI2、CIRIquant和CirComPara2等。

② BSJ比值:反向剪接位点(BSJ)读数相对于同一基因线性剪接平均读数的比例,可以衡量环状与线性RNA的整体平衡,但对于长circRNA或产生多个重叠circRNA的位点,BSJ比率的计算准确性较低。这些工具有CircTest、CIRCexplorer3-CLEAR、CiLiQuant等。

③ circRNA读取比:circRNA表达量除以环状与线性RNA总和,但模型限制影响计算精度。工具包括Sailfish-cir等。

图3 环状和线性RNA比例评估

差异表达分析

差异circRNA表达分析是指评估其表达水平或环状与线性RNA比例的变化。(图4)

CircRNA表达水平变化:BSJ位点读数除以映射读数的总数,估算circRNA表达水平,但受circRNA积累、降解及富集测序方案的检测偏差等因素的影响,因而需严格标准化。

环状与线性RNA比例变化:CircTest使用β-二项式模型测量线性与环状RNA之间的相对变化。CIRIquant采用精确比率验证评估反向剪接比值的差异变化。对于缺乏生物学重复的研究,β分布和广义倍数变化方法可估计表达水平和反向剪接包含率的变化,为初步实验提供相对稳健的策略。

差异可变反向剪接:通过计算同一基因内特定BSJ与总BSJ的比值,可以分析不同BSJ位点使用变化情况。

图4 circRNA差异分析

短读和长读测序重构circRNA序列

准确研究环状RNA的序列可为理解其生物学功能提供参考。

短读长测序鉴定可变剪接

识别circRNA的可变剪接事件的方法主要分为直接或间接方法。(图5)

直接方法:通过跨BSJ的序列识别circRNA特异性剪接,如CIRI-AS、CircSplice和 FUCHS等工具。然而,其分辨率受限于RNA-seq片段长度,常漏检超长circRNA 中的内部剪接事件。

间接方法:比较circRNA富集样本(RNase R处理)与未处理样本的外显子覆盖度差异,如CIRCexplorer2。尽管这种方法规避了片段长度限制,但存在线性RNA残留、缺乏直接BSJ读段支持、需配对的处理/未处理样本数据等问题。

图5 可变剪接识别

短读长测序鉴定circRNA异构体

准确重构circRNA全长序列对于预测其生物学功能至关重要,不同circRNA异构体重构,能够深入了解各种生物过程中的异构体水平变化。(图6)

CIRI-full可以单分子分辨率重建circRNA,但其对较长circRNA异构体的组装能力有限。circseq_cup通过使用CAP3组装来自同一circRNA基因的所有 BSJ读段进行扩展,增加了circRNA异构体的代表性,但需要高circRNA覆盖度,且仍受片段长度限制。

不局限于BSJ位点读段的策略提供了更广泛的转录本重构,如CIRIT ,但大多数转录本组装工具未针对circRNA组装性能进行优化。CircAST和TERRACE从每个BSJ或基因座内比对的片段构建剪接图谱,并应用路径查找算法来推断覆盖所有BSJ读断支持的异构体,虽突破了circRNA的大小限制,但对某些内部结构缺乏直接的BSJ读段支持。

图6 circRNA异构体重构

长读长测序识别circRNA

尽管目前,二代短读测序仍被更广泛使用,但是存在读长限制。长读测序技术,如Oxford Nanopore和PacBio,可对长达几万碱基对的序列进行测序,解决了读长限制的问题,使全长circRNA序列直接鉴定成为可能。(图7)

相关阅读:测序早已进入Next level——Nanopore三代测序,你了解吗?

全长circRNA的测序方法主要利用逆转录酶的链位移活性进行滚圈逆转录(RCRT),生成单个circRNA的多个拷贝串联体的互补DNA(cDNA),再结合长读长测序便可直接获得circRNA的多个重复片段序列。使用trf或偏序比对算法计算一致的序列,并与参考基因组比对可鉴定BSJ和全长同种异构体。

而circNicK-LRS结合不同的片段化条件线性化cirCRNA,随后进行Poly(A)加尾和Nanopore测序。测序分子展示出与RCRT方法相似的环状序列排列,但如果线性化发生在单个circRNA的多个位点,可能导致遗漏内部circRNA结构。

随着纳米孔测序技术的不断普及和发展,长读测序可能成circRNA研究的标准方法,为circRNA结构和功能提供准确和全面的见解,开拓其在临床研究领域更广阔的应用。

如文中所言,短读长测序(Illumina)适合大规模研究,但分辨率有限;长读长测序(Nanopore)可直接得到circRNA全长序列,且测序时间更短,随着其测序效率不断提高,成本不断降低,可能成为circRNA分析的标准。

吉赛生物可提供短读长及长度长两种circRNA测序平台:基于Illumina平台的circRNA-seq,利用自研RNase R高效富集circRNA,具有更高通量的优势;基于Nanopore平台的circRNA全长测序,RNase R富集circRNA后,利用滚环逆转录的方法处理并进行测序,具有检出率和灵敏度更高的优势。两大circRNA测序平台可满足大规模队列研究、低丰度circRNA和非典型circRNA研究和检测等广泛的需求。

图7 circRNA长读测序

circRNA的细胞和空间特异性表达分析

circRNA表现出高度的组织和细胞类型特异性,bulk RNA-Seq分析容易受细胞组成差异影响。单细胞分辨率研究circRNA的特异性表达是迫切需求。

单细胞测序解析circRNA细胞特异性表达

目前主流的单细胞测序平台(如10x Chromium系统),主要捕获线性转录本的 3’或 5’端序列,难以有效检测circRNA。研究人员设计了新的测序方法用于细胞异质性的circRNA鉴定。(图8)

利用激光捕获显微切割技术(LCM)可对目标细胞类型的微量样本进行区域分离和circRNA测序,但该方法工作量大且依赖于分离细胞群体的纯度。流式细胞分选技术能对特定细胞类型中的circRNA进行更高通量的测序。然而,LCM 和流式细胞术都依赖于细胞类型的已有研究,无法靶向新细胞类型分析。

结合单细胞分选与随机引物逆转录的单细胞测序技术如SUPeR-seq,可以表征circRNA的表达。基于多聚腺苷酸化的方案,如 Smart-seq-total,也能检测到含有BSJ序列的降解cirCRNA片段。

由全长scRNA-seq得到的富含poly(A)的数据集中仍能够检测到大量circRNA,但由于缺乏cicRNA富集,导致测序深度较低,假阳性的风险较高。

图8 circRNA特异性表达分析

深度学习预测circRNA细胞特异性表达

深度学习算法改进了circRNA的检测方式,使研究人员能够在单细胞和空间分辨率水平进行分析。circRNA生成受剪接体、RNA结合蛋白(RBP)以及侧翼内含子互补序列等因素的精细调控。这意味着,基于这些顺式作用序列特征和反式作用调节因子的表达水平,可以预测circRNA表达模式。(图9)

在此基础上,CIRI-deep引入深度神经网络,预测配对样本间反向剪接比率的变化,可预测单细胞和空间转录组数据中circRNA的剪接偏好,并评估各种顺式和反式调控特征,从而对不同测序方法下circRNA调控机制的探索。然而,该模型在正常组织样本上进行训练,限制了其在疾病背景中的应用。bulk RNA-seq训练集还将RBP-circRNA调控关系、细胞特异性表达、批次效应混为一谈,可能导致假阳性和假阴性预测。

利用RBP敲除数据集或全基因组CRISPR筛选数据的优化模型策略,可以更好地模拟circRNA反向剪接的调控机制。

图9 预测circRNA的细胞特异性表达

circRNA的功能表征

通过差异表达和剪接分析,基因调控网络构建,深度学习模型对circRNA与疾病的关系预测,可有助于研究circRNA的调控功能。

基于circRNA表达的标准分析

标准差异表达和剪接分析可检测circRNA在疾病状态或实验处理等条件下的变化。(图10)随后利用公共数据库或基于序列特征(如RBP结合基序和miRNA响应元件)进行预测,可分析差异表达circRNA的调控功能。许多研究使用circRNA靶基因进行GO和KEGG富集分析,但这可能产生错误的结论,因为circRNA的表达通常不同于靶基因

图10 差异表达和剪接分析

近期的研究更多采用基于网络的算法筛选功能性circRNA。这类mRNA-circRNA共表达网络通常基于大规模circRNA与mRNA表达数据构建。(图11)在此基础上,为优先疾病相关的cirRNA的筛选,结合与已知疾病相关基因的邻近程度和基因组序列的保守性,可为功能性circRNA的筛选提供有效策略。

图11 共表达网络分析

深度学习预测功能性circRNA

用于预测疾病相关cirRNA的基于深度学习的算法,通常利用circRNA-疾病网络。(图12)一些最新模型如CLCDA和CircDA等整合了RBP结合位点和miRNA响应元件,为circRNA调控预测提供了额外信息。

然而,这些模型大多处于概念验证阶段,难以独立识别新型疾病相关circRNA的能力。此外,并非所有circRNA都具有功能相关性,大多数circRNA可能是剪接副产物。

未来,我们需要开发更普适性的模型,特别针对新发现的circRNA;整合基因表达谱数据,开发多功能的深度学习模型;结合宿主基因表达或细胞类型组成的变化分析,以区分剪接副产物。

图12 AI辅助的circRNA功能预测

大规模整合circRNA测序数据的挑战

RNA提取和制备

降解的circRNA易受RNase R消化,导致RNA质量较差(通过RNA完整值,RIN值较低),减少BSJ位点的识别,显著影响circRNA的检测。

富集策略差异,利用去除rRNA的RNA-seq方法定量circRNA,得到的BSJ比例低;而通过RNase R处理提高了检测灵敏度,却存在特殊结构消化不完全、重复性低等问题,联合poly(A)线性RNA去除和G-四联体展开等方法可以优化线性RNA的去除。

RNase R浓度和处理时间等检测流程的差异可能带来批次效应,因此需要标准化的前处理流程。CIRIquant等工具可利用配对的RNase R处理和未处理的样品进行circRNA表达水平校正,从而减轻批次效应。

测序技术和深度

短读长测序(Illumina)适合大规模研究但分辨率有限,长读长测序(Nanopore/PacBio)可检测全长circRNA,测序时间更短,且随着测序效率不断提高,且成本不断降低,可能成为circRNA分析的标准。另外,测序深度也决定了检测能力,尤其在circRNA丰度较低的情况下尤为重要。长读长测序对cricRNA的检出率更高。

circRNA鉴定

大多数circRNA鉴定工具需要对校准结果进行复杂的处理,导致计算时间长,对资源的要求高。高效的circRNA检测和量化算法,如基于k-mer计算的SPLASH2工具,更适合于大型数据集的可扩展分析。此外,核线粒体假基因和线粒体基因组的序列高度相似,导致线粒体来源的circRNA难以准确识别。

circRNA功能分析

多组学数据集可帮助circRNA的功能注释。POSTAR2和starBase等数据库整合了交联免疫沉淀的高通量测序数据,可以预测RBP和miRNA结合位点;质谱(MS)、核糖体图谱(Ribo-seq)、多聚核糖体图谱(Polysome profiling)和m6A或甲基化RNA免疫沉淀测序(MeRIP-seq),用于评估circRNA编码潜力。

整合多组学数据可以提供更稳健的功能预测。然而,这些数据集通常来自独立的研究,样本异质性可能导致预测偏差。此外,缺乏大规模、系统性的circRNA多组学研究阻碍了circRNA特异性整合算法的发展。

图13 大规模整合circRNA测序数据的挑战

circRNA测序和基于AI算法的未来发展

circRNA单细胞和空间组测序与AI算法

将高效的长读长circRNA测序与单细胞条形码技术结合,有望实现细胞分辨率的全长circRNA分析,结合基于深度学习的补充算法的开发,有望更全面了解细胞circRNA表达概况。(图14)

图14 circRNA单细胞和空间组测序

多组学联合与AI算法

许多基于深度学习的计算方法已用于整合单细胞和多组学数据。这些模型促进了基于细胞类型或空间信息的不同组学模式的准确结合,并有望进行调控网路推算。然而,缺乏配对circRNA测序数据集阻碍了circRNA多组学的大规模整合。未来的研究可能会结合circRNA与对应基因的共表达,联合染色质可及性数据集进行分析。因此,多组学资源和深度学习模型的可用性可以加快对circRNA生物发生和调控机制的探索(图15)。

构建精准的circRNA功能解析AI算法亟需高质量多组学数据支撑,其中circRNA与多组学数据的关联整合尤为关键。

吉赛生物提供多组学整合分析解决方案,全面覆盖表观基因组、转录组、翻译组、蛋白质组及代谢组等多维度数据。通过系统性解析circRNA分子在调控网络中的功能机制,助力创新药物靶点发现和精准诊疗标志物开发,并为训练高性能深度学习模型提供优质数据基石。

(推荐阅读:吉赛生物 | 多组学及组学联合研究解决方案)

图15 基于人工智能的多组学联合算法

circRNA结构和功能与AI

人工智能驱动的RNA语言模型在预测RNA结构和功能方面表现出了很好性能。例如,mRNA 5’非翻译区语言模型可以准确预测核糖体装载、翻译效率和mRNA表达水平。此外,生成扩展模型已经成功用于设计新蛋白的从头合成。因此,circRNA特异性语言模型的开发,可以促进基于circRNA的疫苗和具有所需特性的疗法的合理设计。

然而,circRNA与mRNA的结构和生物学功能不同,目前大多数mRNA模型并不直接适用于circRNA分析。建立针对circRNA的AI模型需要积累circRNA特异性的训练数据。尽管许多研究依靠生物信息学预测来完成circRNA功能预测,但这些预测结果的可靠性仍未得到检验,需要通过复杂手段进行circRNA功能验证,为后续工作尊定基础。(图16)

图16 circRNA特异性数据集和模型

总结

circRNA的深入研究可开发其作为治疗药物的潜力。长读长测序技术通过突破circRNA序列检测长度限制,实现了circRNA的精准识别和高检出率。长读长测序还有望结合单细胞及空间组测序技术,系统解析circRNA时空动态调控模式。AI驱动的多组学联合分析进一步关联circRNA表达与表观遗传调控网络,为circRNA生物发生和调控机制提供了更有效的平台。

此外,人工智能模型已用于蛋白质和RNA建模,为基于人工智能的circRNA药物设计和功能预测奠定了基础。然而,circRNA的结构、生物发生和调控机制与mRNA转录物不同,因此需要开发circRNA特异性人工智能模型。

目前的circRNA研究提供了丰富的资源,但在整合来自不同来源的数据、测序方案和数据方面具有挑战,人工智能算法有望可以突破这些难题。在不久的将来,circRNA特异性人工智能模型的建立对于推进circRNA的表征和应用具有巨大的潜力。

原文链接:

https://www.nature.com/articles/s41588-025-02157-7

发表评论