CirComPara2 | 环状RNA预测算法领域再添利器

目前识别环状RNA的方法存在检出率低以及在不同数据集中表现的性能不一致的问题，因此，检测算法可能会由于丢失相关的 circRNA 而使高通量研究结果产生偏差。

最近由意大利帕多瓦大学分子医学系的Enrico Gaffo教授和Stefania Bortoluzzi教授开发的一个生物信息学工具——CirComPara2 ，通过结合多种 circRNA 检测方法，在模拟数据集和不同的真实数据集中，还能始终保持较高的检出率而不损失精度，可谓是一大利器，文章发表在 Briefings in Bioinformatics (IF=11.622) 期刊上。

先说要点

·目前的 circRNA 检测方法既可以达到高精度（precision），也可以达到高召回率（recall），但鱼与熊掌却难兼得

·当前的 circRNA 检测方法在不同的数据集上表现的性能不一致

·现今的 circRNA 检测方法可能会忽略掉感兴趣的circRNA

·CirComPara2 通过对7种方法的结合，在不损失精度的前提下实现了较高的检测召回率

·无论生物学背景如何，CirComPara2 的表现始终优于其他方法

文章概述

作者首先使用了 9 种 circRNA 预测方法：circRNA_finder、CIRI2、DCC、Findcirc、Segemehl、CIRCexplorer2、Segemehl、STAR 和 TopHat-Fusion，分析了来自人类完整基因组的 5680 个 circRNA 的模拟 RNA-seq 数据。发现每种方法中的假阴性（FN）数量平均达到了 circRNA 总表达数量的 49%（图1a），这表明近一半丢失的 circRNA 具有相当大的表达。而通过进一步检查一个或多个工具（FN集合）遗漏的 1945 个 circRNA，发现只有 4% 的circRNA没有被9种方法中的任何一种发现（图1b），这表明应用多种特征不同且可能互补的算法可以提高 circRNA 的检出率。考虑到两种或更多算法预测的 circRNA 有助于排除许多假阳性（FP），CirComPara 结合了四种 circRNA 检测工具来限制假阳性的数量，以提高预测的整体精度。为了对表现最好的方法组合进行排名，作者计算了一个 F1 值来进行打分，可以均衡地衡量召回率和精确度，结果表明两种或两种以上方法联合预测的 F1 得分最高（0.99；图 1d），确定了召回率和精确度之间的最优权衡。因此，CirComPara2 被设置为集合至少两种方法来联合预测。

图1. 常见的检测方法和 CirComPara2 方法忽略掉的 circRNA

接着，作者比较了 CirComPara2 与其他9种方法对模拟数据的预测性能。CirComPara2 通过实现最高的召回率（0.98）获得了最高的 F1 评分（0.99；图2a），同时保持了与其他算法相当的精度，证实 CirComPara2 修正了其他方法遗漏的真实的 circRNA。

此外，作者还在 142 个真实的 RNA-seq 公共数据集上评估了这 9 种预测工具，这些数据集分别来自 6 个独立的研究，包括人类细胞系，人类、恒河猴和小鼠的各种组织。根据这些工具在真实数据集上的 F1 评分进行排名，结果是CirComPara2 的分值最高（0.91），且差异显著（q < 0.001，图2e），显著优于其他工具。

图2. circRNA 检测方法在模拟和真实数据集上的性能

总结

CirComPara2 实现了一个完全自动化的计算通道，可用于 circRNA 的检测和量化，从读取预处理到 circRNA 注释，采用了模块化和高度并行的方法，使其具有计算效率和弹性。此外，CirComPara2 还可以为开发 circRNA 数据库提供全面可靠的结果。

总之，与最先进的工具相比，CirComPara2 通过增强对真实可靠 circRNA 的检测，实现了对 circRNA 表达更全面的研究，并减小了单一方法产生的偏差，从而为科研人员在不同的生物环境和物种中的研究提供了可靠的 circRNA 预测方法。

参考文献

[1] Gaffo E , Buratin A , Molin A D , et al. Sensitive, reliable, and robust circRNA detection from RNA-seq with CirComPara2. 2021.

CirComPara2 | 环状RNA预测算法领域再添利器

发表评论 取消回复

发表评论取消回复