环状RNA(circRNA)因其稳定性及在基因调控与疾病中的作用而受到关注,但其全长序列仍难以准确重构。RCA结合长读测序为全长解析提供了可能,然而研究发现,部分读段的重复单元常夹杂circRNA的部分反向互补片段;若不加区分地处理,易造成序列组装错误并产生错误信号。剔除此类错误信号不仅可提高全长序列与BSJ的准确性,还可恢复检出传统流程遗漏的真实circRNA,从而提升检测灵敏度并完善注释图谱。高质量序列对后续功能研究、数据库构建及circRNA的诊断与治疗应用均具有重要意义。

美国宾夕法尼亚州立大学Mingfu Shao团队在bioRxiv发表研究论文:“Accurate Reconstruction of Circular RNAs from Complex Rolling Circular Long Reads with CircPlex”。

该团队提出CircPlex用于解析RCA数据中的复杂重复结构。方法基于k-mer筛选复杂读段,借助EquiRep构建重复单元,并结合局部/全局比对消除旋转多样性,精确划定circRNA主体序列与部分反向互补片段边界,从而重建真实全长序列。实验结果显示,CircPlex提升了全长序列与BSJ鉴定准确性并提高了对传统方法遗漏circRNA的检出,有助于构建更全面可靠的circRNA图谱。

CircPlex Step1—识别复杂RCA长读

在CircPlex方法中,首先使用KMC统计读段中的k-mer,并丢弃支持度低的k-mer,剩余的k-mer总数记为K。接着,将每个k-mer与其反向互补配对,并累加每对的最小计数,得到一个统计值R。如果R/K≥0.05(默认阈值),则该读段被标记为潜在的复杂读段。此步骤能够在分析初期筛选出需要进一步处理的读段,为后续真实circRNA序列的重建奠定基础。

CircPlex Step2—重复单元重建

在识别潜在复杂读段后,CircPlex采用EquiRep工具来提取串联重复单元,记为S。该工具通过识别和构建重复序列单元,有效应对了长读测序中常见的错误。实验结果表明,EquiRep能生成结构清晰无反向互补信号的重复单元,对于复杂读段,则呈现明显的反向互补模式,进一步支持了复杂结构的存在。这些提取出的重复单元作为后续序列解析与重建的基础。

图1 RCA流程生成的常规读段及其由EquiRep预测的重复单元的点阵图

图2 RCA流程生成的复杂读段及其由EquiRep预测的重复单元的点阵图

CircPlex Step3—重复单元S的方向标准化

对于复杂读段,其重复单元S同时包含circRNA序列及其部分反向互补,因此可能以五种不同的旋转方式出现。为确保分析的一致性,CircPlex通过将S与其反向互补序列进行局部比对,识别最接近边界的匹配位置,从而确定反向互补片段与主体序列的分界点。根据该位置,S被重排为以反向互补片段开头的标准方向。若比对未检测到明确的分界信号,则认为S已处于正确方向。这一步实现了复杂重复单元的方向标准化,为后续提取真实circRNA序列提供一致的结构输入。

图3 预测得到的重复单元S可能呈现五种不同的旋转构型

CircPlex Step4—鉴定真实circRNA序列

在重复单元S经过方向标准化后,CircPlex将S与其反向互补序列进行全局比对,以定位反向互补片段与主体序列的分界点。根据该分界点,S被切分为两个候选circRNA序列A1和A2。若比对结果显示S中的反向互补成分较少,则该读段被视为常规读段;否则,保留两个候选序列。最终,CircPlex通过与参考基因组的比对,选择比对结果更符合基因组结构的序列,作为真实的circRNA全长序列。这一步有效区分了circRNA主体序列与错误反向互补片段,为最终结果提供了可靠保障。

图4 从重排后的序列S中识别circRNA序列

CircPlex在真实数据中的评估

在睾丸与脑组织的RCA长读数据上,CircPlex通过对候选序列进行基因组比对,显著提高了circRNA全长重建的准确性。评估结果显示,原始重复单元S的过预测比例多集中在0.25–0.5,表明其普遍含有较大比例的反向互补错误成分;相比之下,CircPlex输出的序列在0附近形成清晰峰值,说明多数预测与真实circRNA高度一致。两种组织样本中均呈现相同趋势,验证了CircPlex的稳定性与有效性。总体而言,CircPlex能准确剥离错误反向互补片段,显著提升circRNA全长重建的可靠性。

图5 通过与参考基因组比对来评估预测的circRNA序列

图6 睾丸样本中过预测的分布

图7 脑组织样本中过预测的分布

CircPlex与数据库比对的BSJ评估

CircPlex通过与参考基因组的比对确定每条预测circRNA的BSJ,并将来自同一染色体且坐标差在50bp内的BSJ聚类去冗余。在睾丸与脑组织中分别检测到117,045和127,557个BSJ,最终聚类为87,981和72,864个BSJ,其中约一半来源于过预测比例≤0.1的高置信circRNA,支持其预测的可靠性。

进一步将CircPlex的BSJ与isoCirc和circBase比对结果显示,CircPlex能识别出大量circBase中已收录但isoCirc未检测到的circRNA,且其中大部分属于高置信预测。这表明CircPlex在处理复杂读段时显著提升了circRNA的检测敏感性和准确性,有效弥补了现有方法的漏检问题。

表1 CircPlex在两个样本上的结果汇总

图8 睾丸样本中CircPlex与isoCirc的BSJ与circBase的重叠情况。

图9 脑组织样本中CircPlex与isoCirc的BSJ与circBase的重叠情况。

总结

该研究揭示了RCA长读中普遍存在的circRNA部分反向互补片段,导致传统分析流程容易生成假阳性circRNA序列和错误的BSJ。CircPlex通过精准识别复杂读段、标准化重复单元并切割真实circRNA序列显著提升了circRNA全长重建的准确性,修正了RCA测序分析中的关键偏差,进一步完善了circRNA图谱的构建,为未来研究和应用提供了技术支持。

原文链接:https://www.biorxiv.org/content/10.1101/2025.11.21.689841v1

发表评论