环状RNA(circRNA)因缺乏 5′-cap 结构与 3′-poly(A) 尾常被视为非编码分子,但部分序列可通过内部核糖体进入位点(IRES)介导非帽依赖性翻译。鉴于实验鉴定IRES面临通量限制,计算预测已成为重要的补充手段。目前,现有模型多基于线性mRNA设计;少数针对circRNA的工具在整合序列与空间结构特征时,因缺乏有效的噪声抑制策略,导致多模态信息融合效率受限、预测假阳性率较高。因此,当前的特征整合方式与识别精度仍有待进一步优化。
近日,陕西师范大学刘恋研究员团队在 International Journal of Biological Macromolecules 上发表最新研究成果:circIRES-DAF: A dual-attenuation fusion framework for identification of internal ribosome entry sites in circular RNAs。
该研究提出基于双重衰减融合的深度学习框架circIRES-DAF,用于处理circRNA IRES识别中的特征融合噪声。该模型结合序列属性与空间结构特征,引入双重衰减融合机制以抑制噪声并提取关键特征。结果表明,该方法提高了IRES预测的准确性,降低了假阳性率,为分析circRNA的非帽依赖性翻译机制提供了计算辅助工具。
circIRES-DAF模型架构与原理
circIRES-DAF是基于序列与二级结构特征的深度学习模型,主要优势在于引入了双重衰减融合策略。模型分别提取多通道序列特征与二级结构图特征,经通道注意力机制校准后输入融合模块。该模块通过局部特征评估较好地抑制冗余噪声,并动态分配双模态的相对权重。这种自适应加权在保留关键模式的同时,有效提升了融合效率与预测精度。
此外,针对RNA二级结构,模型针对性采用了GraphSAGE(图采样与聚合网络)。该网络以核苷酸为节点并结合3D几何属性,通过聚合局部邻域节点特征,更全面地捕获了高阶空间拓扑模式。
Fig. 1. circIRES-DAF总体框架
Fig. 2. GraphSAGE结构原理图
参数寻优与消融验证
超参数两阶段搜索
为有效降低网格搜索的计算开销,研究采用了更具针对性的两阶段超参数优化策略。第一阶段优先调整模型架构参数,通过三维散点图确定了序列隐层维度(32)、图隐层维度(64)及图神经网络层数(2层)的较优组合;第二阶段在此基础上,利用平行坐标图对影响模型泛化能力的训练参数进行微调,进一步明确学习率(1e-3)、批次大小(32)、权重衰减及Dropout率的合适配置。
Fig. 3. 模型结构超参数的3D散点图
Fig. 4. 正则化超参数的平行坐标作图
特征模态消融与池化策略优化
研究通过移除特定特征组件构建模型变体,以系统评估序列与结构模态的必要性。五折交叉验证结果显示,核苷酸序列特征是预测的主要驱动力,二级结构图谱则提供了辅助信息,两者联合的circIRES-DAF模型展现出更优的综合性能。此外,序列分支的内部分析表明,核苷酸类别与局部环境特征(通道1)对预测的贡献高于理化性质(通道2)。
Fig. 5. 模型特征变体性能对比
研究通过热力图对比了序列与图谱分支的九种池化策略组合。分析表明,序列特征对池化方式较为敏感:使用最大池化会引起部分上下文信息丢失,导致性能下降(AUC<0.87)。结果显示,当序列分支使用平均池化、图分支使用求和池化时,模型能够较好地保留多模态信息,其预测性能相对较高(AUC=0.8932)。
Fig. 6. 池化策略组合的性能热力图
双重衰减融合机制的有效性验证
研究通过移除特定模块构建了五种变体,利用雷达图对比了各模型的性能。结果表明,完整的circIRES-DAF在AUC(0.8932)和AUPR(0.8980)等评价指标上表现相对较优。移除通道注意力机制会导致模型性能出现下降,提示了特征融合前预处理的作用。此外,未包含双重衰减融合模块(w/o C)的模型表现低于完整模型,表明相较于特征的直接拼接,自适应加权融合策略在处理异构多模态数据时具有一定的优势。
Fig. 7. 注意力与融合策略消融雷达图
基准对比与真实案例应用
独立测试集基准对比
为评估模型性能,研究在独立测试集上将circIRES-DAF与现有工具(DeepCIP,IRESfinder,DeepIRES)进行了对比测试。在统一输入条件和评价标准的复现下,circIRES-DAF在 AUPR、ACC、F1-score 和 MCC 等综合指标上均取得了相对更优的结果。其中,其精确率较次优模型高出 23%,表现出较好的抗假阳性能力。此外,ROC 和 PR 曲线的结果也显示了模型在不同决策阈值下具有一定的稳健性。
Fig. 8. 与最先进方法的性能对比
真实案例的滑窗预测验证
为评估模型的泛化性能,研究对已知具有翻译功能的circUBE4B和circ0003692进行了滑窗扫描预测。结果显示,模型能有效定位已知 IRES 区域,其中 circUBE4B 的最高预测概率为 0.967,与已知区域重合度为 88.9%。在circ0003692的测试中,模型识别了已知功能区IRES2,并于其下游(573–746 nt)检测到置信度为0.917的潜在信号。该结果提示 circRNA 内部可能存在多个 IRES 元件,为后续实验验证提供了候选靶点。
表1. 真实circRNA序列的IRES活性滑窗预测结果
模型可视化与生物学可解释性
研究采用t-SNE降维技术(结合Z-score标准化与Fisher得分计算)对特征进行了可视化分析。结果显示,原始正负样本在特征空间中呈现出一定程度的重叠;而经circIRES-DAF处理后提取的特征分布中,IRES与非IRES样本形成了两个相对独立的聚类簇。该结果表明模型具备一定的特征提取与分类能力。
Fig. 9. t-SNE特征可视化
在特征分析基础上,研究利用积分梯度法识别了对模型预测贡献较大的序列片段。通过与已知IRES样元件进行显著性(p-value)比对,模型提取的 Motifs 在序列 Logo 图上呈现出与已知元件相似的组成模式,且多表现为富含腺嘌呤(A)和尿嘧啶(U)。该结果与生物学文献中关于 IRES 元件特征的报道基本一致,提示模型识别出的特征具有一定的生物学意义。
Fig. 10. 模型预测的序列基序(左)与已知IRES样元件(右)的序列Logo比对图
总结
本研究开发的circIRES-DAF计算框架,采用双重衰减融合策略整合circRNA的多模态特征。研究结果显示,该模型在算法层面降低了预测的假阳性率,同时通过可解释性分析提取出的富A/U基序为IRES元件的序列规律提供了计算学证据。该工具可为circRNA翻译潜能的大规模筛选提供参考。
原文链接:
https://www.sciencedirect.com/science/article/abs/pii/S0141813026006793
.png)