序言
环状RNA自2013年两篇Nature发表后,该研究领域彻底被点爆,关于环状RNA研究的发表刊物是逐年上涨(如下图)。同时,十年间出现了大量优秀的生物信息学工具。

  

2021年Briefings in Bioinformatics也发了类似的总结《The bioinformatics toolbox for circRNA discovery and analysis》,文章中描述了大约100个生物学工具。

2023年5月3日,发表在Briefings in Bioinformatics期刊的文章Computational approaches for circRNAs prediction and in silico characterization为我们梳理了过去十年环状RNA研究常用的生物信息学研究工具,覆盖了整个环状RNA的研究领域。
  

<有了这篇文章,我们再也不用秃头整理资料了!\^o^/>

当然,环状RNA的故事并不是一篇文章能够讲完的,小编也根据自己过往经验补足了一些文章中没有出现的工具。那接下来就让我们一起阅览一下环状RNA的生物信息研究工具,捋一捋哪些是我们用过的,哪些将来可以用到课题研究中~
PS:本文较长,约4500字,【尾声:一图胜千言】用图对文章原文提到的工具进行了概述。 

环状RNA起源

要研究环状RNA,那我们不得不知道环状RNA是如何生成的。目前大部分研究人员已经自动默认环状RNA主要是线性RNA转录后的产物,环状RNA分子主要通过侧翼内含子互补配对、RBP诱导侧翼内含子以及套索驱动3种方式产生(如下图),且根据环状RNA的基因组结构分成了EcircRNA、EIcircRNA、IcircRNA等不同亚型。

研究者还发现了哪些种类的环状RNA呢,请查看:
非经典环状RNA | 环状分子研究新的突破口?
  

  

环状RNA识别

了解环状RNA起源之后,我们已经明白环状RNA与线性RNA分子序列上最大的区别是BSJ(Back-SplicedJunction)。最初Salzman等人进行生信分析时无意间发现无法比对到基因组的bulk RNA-seq序列存在大量BSJ,于是大胆推测出这些序列来源于环状RNA分子。 

BSJ是识别环状RNA分子的关键,所有预测环状RNA分子的软件——从最初的find_circ到现在常用的CIRI、DCC、CRICexplorer等工具——都基于该理念(请看经典图)。

 

  

当然,不同的软件除了基本思想一致外,还存在两个门派:一个是Split-alignment based approach,另一个是Pseudoreference based approach。由于BSJ无法比对到正常参考基因组,第一种方法将chimeric reads或unmapped reads分割后再一点点与参考基因组比对;第二种是先推测BSJ的外显子,再将这些外显子拼接成假基因组(pseudo reference),然后再将 chimeric reads或unmapped reads比对到假基因组上(如下图)。

 

  
人工智能的产物ChatGPT都已经火出圈了,环状RNA识别怎么能少得了用机器学习的方法。目前已经有PredcircRNA、WebCircRNA、DeepCircCode以及StackCirRNAPred四个工具采用了机器学习的方法。下表就列出了近十年用于识别circRNA的工具:

 

这么多工具,到底哪一款最好呢? 

2017年

PLOS COMPUTATIONAL BIOLOGY发表的文章《A comprehensive overview and evaluation of circular RNA detection tools》对11款工具进行了比较,发现DCC、CIRCexploer、MapSplice、NCLScan、PTESFinder假阳性率较低,而CIRI、CIRCexplorer、KNIFE、Segemehl、PTESFinder具有较高的敏感性。

2018年

随后,另一篇文章《Improved circRNA Identification by Combining Prediction Algorithms》也对11款工具进行了敏感性和特异性的评估,发现大多数方法能检测到的circRNA丰度中值为14-20 reads,而DCC、circRNA_finder、UROBORUS只有11、9、5reads。
然而,不同的软件侧重点不一样,且有些软件一直在更新升级,因此很难认定某一款软件就是最优的,一般采用多个软件组合的方式对circRNA进行检测和筛选。CircComPara2和circRNAwrap这两款软件就整合了多款工具用于circRNA识别。由于并没有一款完美的软件,并且新软件可能存在新的问题,所以大家在课题研究时更多的是沿用之前使用过的软件,这点可以从引用率上体现出来。

 

环状RNA可变剪切与重构

前面的工具主要用于识别BSJ,但环状RNA中间序列是存在可变剪切的。然而,二代测序很难捕获环状RNA序列全长序列。因此,一些工具被开发出来识别环状RNA的可变剪切事件,包括CIRICexplorer3/CIRI-AS等;另一些工具被用于环状RNA的全长构建,包括CIRI-full/circAST/psirc/CYCLeR等。

 

环状RNA全长测序技术

2021年连续发表了4篇关于环状RNA全长测序的策略,用于对环状RNA全长识别与定量以及可变剪切事件的检测,分别包括:• CIRI-long

• circNick-LRS/circPanel-LRS

• circFL-seq

• isoCirc

 

关于这些技术的解读以及优劣势circRNA公众号之前已经解读了许多了,大家感兴趣的话可以阅读以下内容:
circRNA研究新策略 | 三代测序是否能引领circRNA走向未来
Nat Protoc丨中国科学院北京生命科学研究院赵方庆教授团队提出环状RNA全长转录本解析技术
Nature Biotechnology | 基于三代测序技术分析circRNA全长
新风尚 | circFL-seq —— Nanopore 检测全长环状 RNA 新策略
重量级文章!Nanopore circRNA研究又见刊啦

 

在环状RNA全长识别、可变剪切分析以及表达定量等方面,三代测序技术有二代测序无法比拟的优势。高通量检测技术Illumina-basedRNA-seq/microarray/NanoString能检测定量BSJ序列,然而它们无法检测序列长度>300nt的环状RNA全长结构;而不同长度的环状RNA,纳米孔测序技术都能胜任。除此之外,三代测序还能够通过RNC建库检测正在翻译的环状RNA分子,并且能通过direct技术在一定程度上捕获到RNA修饰。

 

技术服务 | circRNA全长纳米孔测序

  

目前关于三代测序对环状RNA修饰的文章较少,感兴趣的童鞋可以查看文章《Profiling of circular RNA N6-methyladenosine in moso bamboo(Phyllostachys edulis)using nanopore-based direct RNA sequencing》

 

环状RNA结构与体外制备

大家不太熟悉RNA结构研究的话,可以阅读文章《Recent advances in RNA structurome“结构决定功能”,特别是要将mRNA2.0技术服务于临床医学,我们需要先对候选环状RNA进行解构。

 

环状RNA全长测序技术解决了得到环状RNA全长序列(即一级结构)的挑战,为后续环状RNA功能研究提供了结构基础,例如预测miRNA的结合位点、RBP的结合位点。然而,对更高级的环状RNA结构的解析,才利于预测环状RNA功能解析,例如实现分子docking。另外,环状RNA的体外制备需要对环状RNA结构进行解构,这已经被应用到反义环状RNA的设计与应用、环状RNA作为药物靶点、可翻译的环状RNA框架等多个领域。

 

技术服务 | circRNA体外制备

 

还不了解什么是环状RNA体外制备?那就先看看:
「挑战者circRNA」下一代RNA疗法新秀崛起
关于环状RNA在生物医学中的应用大家可以查看:
Cell综述 | 陈玲玲综述环状RNAs研究方法和应用
环状RNA二级结构的预测比较常用到的是RNAfold和Mfold,三级结构常用的工具有RNAcomposer(在线版本最长只能预测500nt)、3dRNA等,今年3月斯坦福大学团队更是推出了堪比AlphaFold的工具ARES来准确预测RNA三级结构。

另外,值得一提的是,我国在人工智能应用于生物医学的研究也走在了世界前沿。百度出品的深度学习算法LinearFold能准确预测RNA的二级结构,而5月2日公布的RNA序列设计软件LinearDesign更是登顶Nature。相信这些新的工具将会为环状RNA的研究注入新的活力,同时加速环状RNA在医药方面的开发。

Nature丨斯微生物与百度等单位跨界发表重磅文章:AI算法赋能mRNA序列设计,人工智能加速circRNA药物开发

 

环状RNA表达定量、标准化与差异分析

环状RNA相比线性分子mRNA和lncRNA更难定量。大量bulk RNA-seq数据显示,环状RNA只占整个样品文库的极少部分,其中间序列要受线性分子的影响,定量只能认准BSJ。因此,目前环状RNA定量最佳的建库策略应该是先通过RNase R等策略去除线性,只富集环状RNA分子。

 

产品推荐 丨RNA制备工具酶系列之RNase R

 

环状RNA定量工具已经被集成在识别工具中,一般这些工具最后会输出每个样品的reads count值,有些还会给出CPM(counts per million)等标准化后的值。环状RNA表达的标准化和线性分子没有区别,唯一需要注意的是,由于环状RNA表达很低,因此在进行差异表达前过滤时通常阈值比线性分子低,例如circRNA CPM>0.1。差异分析受表达量以及表达分布的影响,目前最常用于环状RNA差异表达的工具仍是edgeR与 DESeq2,当然也有另外一些新工具被开发出来,例如CircTest。到底哪种分析方法更适合环状RNA呢?今年1月,Brief in Bioinformatics发表的《Systematic benchmarking of statistical methods to assess differential expression of circular RNAs》对现有的一些差异分析方法进行了评估,有兴趣的童鞋可以看一看。

 

环状RNA功能预测

环状RNA功能的机制众多,大家最熟悉且研究最多的有三个:

作为miRNA的海绵

关于circRNA-miRNA互作的预测工具,当前大家还是习惯用于mRNA的预测工具,例如miRanda/TargetScan/RNAhybird等;一些工具进行了简单创新,对已有的软件和数据进行了整合,例如Circr整合了miRanda以及RNAhybrid以及AGO结合位点,CRAFT整合了miRanda和PITA以及AGO结合位点;也有一些应用了机器学习算法,例如基于深度的GCNCMI、NGCICM等。

与RBP互作

环状RNA的整个生命周期都有蛋白质的参与,且环状RNA也能通过与蛋白质互作发挥功能。然而,目前环状RNA与RBP的互作研究手段仍具有很大的局限性,可使用工具也比较有限。高通量测序中的RIP-seq和CLIP-seq能够捕获RBP结合的circRNA,针对这两种高通量数据,circRIP被开发出来用于环状RNA的挖掘。

另外,基于已有的研究信息,一些预测工具也被开发出来。catRAPID v2整合了大量环状RNA与RBP信息,是一款非常常用的在线circRNA-RBP预测工具;基于CLIP-seq以及机器学习的工具也频频出现,例如CRIP、CircSLNN、CCSCRSites、Clirc、circ-pSBLA、iCircRBP-DHN以及RBPsuite等,除了个别工具存在在线版本(例如RBPsuite)方便使用,其他工具使用难度都比较大,且RBP分子仅仅局限于37RBP(CRIP收集的CLIP-seq训练集)。

另外,通过circRNA pull-down+质谱的方法可能是一种更有效地方法研究某个环状RNA与哪些RBPs互作。

蛋白质翻译

虽然最初研究者将环状RNA定义为非编码分子,然而有许多环状RNA被预测可能翻译蛋白质。事实上,目前已经有超过40个人类环状RNA被报道能够翻译蛋白质且发挥功能。 

关于一个circRNA是否能够翻译,我们可以通过CPAT、CPC2等工具先进行翻译潜能预测;另外我们可以用ORFfinder进行ORF的识别。值得注意的是,环状RNA的ORF可能覆盖环化位点BSJ,因此在进行操作时可能需要重复最多4次序列以避免错过有效的ORF或无终止密码子的ORF。

 

环状RNA的翻译不依赖于帽子结构,被归为“非经典”的形式,目前已发现大约3种翻译机制,包括:

– IRES驱动

– m6A驱动

– 滚环翻译(无终止密码子)

 

而关于IRES的预测,常用的生信工具有VIPS、IRESfinder、IRESPred、IRESpy、CircPrimer以及DeepCIP;而m6A位点预测常常用SRAMP以及m6Apred;至于滚环翻译的驱动机制目前仍有待进一步研究,并没有相应的工具帮助识别该现象。

另外,Ribo-seq数据也可能存在环状RNA的序列片段,为翻译提供线索,我们可以通过CircPro、CircCode等工具识别潜在翻译的环状RNA;但Ribo-seq文库太短,很难捕获到环状RNA的信息,RNC-seq可能是一种更有效的手段。

目前我们对环状RNA功能认识仍然有限。虽然有 circFunDb等数据库收集环状RNA功能,但由于环状RNA数量太多且一般被作为调控分子,因此,目前仍未形成像Gene Ontology和KEGG那样系统的功能和通路数据库。所以,环状RNA关于功能和通路注释大多通过以下方式开展:

• 对circRNA来源基因(宿主基因)开展 GO/KEGG/……等注释;• 构建circRNA-miRNA-mRNA网络,通过mRNA来进行GO/KEGG注释;

• 对circRNA cis调控基因(许多文献非编码 RNAcis调控基因定义为基因组区域<10kb)进行GO/KEGG/……等注释;

• 对circRNA trans调控基因或表达相关基因进行 GO/KEGG/……等注释;

• ……

关于GO/KEGG/……注释以及富集的工具已经有很多了,但比较常用的可能还是R包 clusterProfiler、在线工具DAVID、在线工具 g:profiler等。

 

环状RNA实验验证

环状RNA的验证、过表达以及敲低实验关键是设计特异的环状RNA序列,主要包括环状RNA引物设计和siRNA设计。其中CircPrimer是一款 Windows版本的环状RNA引物设计工具,而 circInteractome针对circBase数据库中的环状 RNA进行了引物设计,同时circInteractome还包含了siRNA的信息。

 

环状RNA数据库

环状RNA研究十年间已经发表的数据库差不多有 60个,之前已经作了比较详细的总结,请查看:

十年环状RNA | 史上最全!数据库汇总

目前各个数据库并没有统一环状RNA的命名,且参考基因组版本也存在差异——大多数使用的是 hg19版本,有一些采用了hg38版本。对此,今年年初,陈玲玲等研究者就该问题给出了环状RNA命名规范的建议,这将有利于环状RNA社区间的交流。

NCB丨陈玲玲研究员等统一环状RNA命名规范,推动环状RNA研究交流和发展

环状RNA可视化工具

目前关于环状RNA可视化的工具并不多,主要集中在展示环状RNA与宿主间的关系:• Windows版本的CircView,用于展示环状RNA 的基因组序列结构,同时可以标注miRNA结合位点以及RBP结合位点;

• shiny版本的circASViewer,用于查看环状RNA可变剪切事件的小工具;

• shiny版本的circASViewerStatic,该工具与 circASViewer是姊妹工具,能够生成环状RNA可变剪切事件的静态图;

• Rcirc是一个R包,可以像IGV一样可视化环状 RNA的测序数据;

• 在线版本的circVIS主要展示环状RNA与宿主的关系,更像一个数据库(目前无法使用);

• ……

另外,如果要绘制环状RNA与其他分子的互作图,Cytoscape软件是大家的首选。

 

尾声:一图胜千言

下图对文章原文提到的工具进行了概述,分别从环状RNA研究热度、识别工具、数据库和下游分析工具4个方面以及时间轴等多个维度对环状 RNA生物信息工具进行了总结。

 

  

各位看官在环状RNA研究中都用到过哪些工具呢?欢迎留言讨论~

发表评论