IJBM | 陕师大团队提出circIRES-DAF深度学习模型，提升circRNA IRES预测精度

环状RNA（circRNA）因缺乏 5′-cap 结构与 3′-poly(A) 尾常被视为非编码分子，但部分序列可通过内部核糖体进入位点（IRES）介导非帽依赖性翻译。鉴于实验鉴定IRES面临通量限制，计算预测已成为重要的补充手段。目前，现有模型多基于线性mRNA设计；少数针对circRNA的工具在整合序列与空间结构特征时，因缺乏有效的噪声抑制策略，导致多模态信息融合效率受限、预测假阳性率较高。因此，当前的特征整合方式与识别精度仍有待进一步优化。

近日，陕西师范大学刘恋研究员团队在 International Journal of Biological Macromolecules 上发表最新研究成果：circIRES-DAF: A dual-attenuation fusion framework for identification of internal ribosome entry sites in circular RNAs。

该研究提出基于双重衰减融合的深度学习框架circIRES-DAF，用于处理circRNA IRES识别中的特征融合噪声。该模型结合序列属性与空间结构特征，引入双重衰减融合机制以抑制噪声并提取关键特征。结果表明，该方法提高了IRES预测的准确性，降低了假阳性率，为分析circRNA的非帽依赖性翻译机制提供了计算辅助工具。

circIRES-DAF模型架构与原理

circIRES-DAF是基于序列与二级结构特征的深度学习模型，主要优势在于引入了双重衰减融合策略。模型分别提取多通道序列特征与二级结构图特征，经通道注意力机制校准后输入融合模块。该模块通过局部特征评估较好地抑制冗余噪声，并动态分配双模态的相对权重。这种自适应加权在保留关键模式的同时，有效提升了融合效率与预测精度。

此外，针对RNA二级结构，模型针对性采用了GraphSAGE（图采样与聚合网络）。该网络以核苷酸为节点并结合3D几何属性，通过聚合局部邻域节点特征，更全面地捕获了高阶空间拓扑模式。

Fig. 1. circIRES-DAF总体框架

Fig. 2. GraphSAGE结构原理图

参数寻优与消融验证

超参数两阶段搜索

为有效降低网格搜索的计算开销，研究采用了更具针对性的两阶段超参数优化策略。第一阶段优先调整模型架构参数，通过三维散点图确定了序列隐层维度（32）、图隐层维度（64）及图神经网络层数（2层）的较优组合；第二阶段在此基础上，利用平行坐标图对影响模型泛化能力的训练参数进行微调，进一步明确学习率（1e-3）、批次大小（32）、权重衰减及Dropout率的合适配置。

Fig. 3. 模型结构超参数的3D散点图

Fig. 4. 正则化超参数的平行坐标作图

特征模态消融与池化策略优化

研究通过移除特定特征组件构建模型变体，以系统评估序列与结构模态的必要性。五折交叉验证结果显示，核苷酸序列特征是预测的主要驱动力，二级结构图谱则提供了辅助信息，两者联合的circIRES-DAF模型展现出更优的综合性能。此外，序列分支的内部分析表明，核苷酸类别与局部环境特征（通道1）对预测的贡献高于理化性质（通道2）。

Fig. 5. 模型特征变体性能对比

研究通过热力图对比了序列与图谱分支的九种池化策略组合。分析表明，序列特征对池化方式较为敏感：使用最大池化会引起部分上下文信息丢失，导致性能下降（AUC<0.87）。结果显示，当序列分支使用平均池化、图分支使用求和池化时，模型能够较好地保留多模态信息，其预测性能相对较高（AUC=0.8932）。

Fig. 6. 池化策略组合的性能热力图

双重衰减融合机制的有效性验证

研究通过移除特定模块构建了五种变体，利用雷达图对比了各模型的性能。结果表明，完整的circIRES-DAF在AUC（0.8932）和AUPR（0.8980）等评价指标上表现相对较优。移除通道注意力机制会导致模型性能出现下降，提示了特征融合前预处理的作用。此外，未包含双重衰减融合模块（w/o C）的模型表现低于完整模型，表明相较于特征的直接拼接，自适应加权融合策略在处理异构多模态数据时具有一定的优势。

Fig. 7. 注意力与融合策略消融雷达图

基准对比与真实案例应用

独立测试集基准对比

为评估模型性能，研究在独立测试集上将circIRES-DAF与现有工具（DeepCIP，IRESfinder，DeepIRES）进行了对比测试。在统一输入条件和评价标准的复现下，circIRES-DAF在 AUPR、ACC、F1-score 和 MCC 等综合指标上均取得了相对更优的结果。其中，其精确率较次优模型高出 23%，表现出较好的抗假阳性能力。此外，ROC 和 PR 曲线的结果也显示了模型在不同决策阈值下具有一定的稳健性。

Fig. 8. 与最先进方法的性能对比

真实案例的滑窗预测验证

为评估模型的泛化性能，研究对已知具有翻译功能的circUBE4B和circ0003692进行了滑窗扫描预测。结果显示，模型能有效定位已知 IRES 区域，其中 circUBE4B 的最高预测概率为 0.967，与已知区域重合度为 88.9%。在circ0003692的测试中，模型识别了已知功能区IRES2，并于其下游（573–746 nt）检测到置信度为0.917的潜在信号。该结果提示 circRNA 内部可能存在多个 IRES 元件，为后续实验验证提供了候选靶点。

表1. 真实circRNA序列的IRES活性滑窗预测结果

模型可视化与生物学可解释性

研究采用t-SNE降维技术（结合Z-score标准化与Fisher得分计算）对特征进行了可视化分析。结果显示，原始正负样本在特征空间中呈现出一定程度的重叠；而经circIRES-DAF处理后提取的特征分布中，IRES与非IRES样本形成了两个相对独立的聚类簇。该结果表明模型具备一定的特征提取与分类能力。

Fig. 9. t-SNE特征可视化

在特征分析基础上，研究利用积分梯度法识别了对模型预测贡献较大的序列片段。通过与已知IRES样元件进行显著性（p-value）比对，模型提取的 Motifs 在序列 Logo 图上呈现出与已知元件相似的组成模式，且多表现为富含腺嘌呤（A）和尿嘧啶（U）。该结果与生物学文献中关于 IRES 元件特征的报道基本一致，提示模型识别出的特征具有一定的生物学意义。

Fig. 10. 模型预测的序列基序（左）与已知IRES样元件（右）的序列Logo比对图

总结

本研究开发的circIRES-DAF计算框架，采用双重衰减融合策略整合circRNA的多模态特征。研究结果显示，该模型在算法层面降低了预测的假阳性率，同时通过可解释性分析提取出的富A/U基序为IRES元件的序列规律提供了计算学证据。该工具可为circRNA翻译潜能的大规模筛选提供参考。

原文链接：

https://www.sciencedirect.com/science/article/abs/pii/S0141813026006793

IJBM | 陕师大团队提出circIRES-DAF深度学习模型，提升circRNA IRES预测精度

发表评论 取消回复

发表评论取消回复