作者:EP
校稿:范丽媛
随着质谱(MS)和核糖体分析(Ribosome profiling)等技术的发展,蛋白质组研究已经发展到传统蛋白数据库中没有的蛋白质(幽灵蛋白组)。这些未被充分研究的蛋白质可以通过基因组突变、选择性剪接或曾被认为是非编码的RNA产生。其中,circRNA不依赖帽结构的翻译是“幽灵蛋白质组”产生的重要机制。
目前,已经有各种算法和工具,初步筛选可翻译的circRNA。翻译组研究技术(如Ribo-seq、RNC-seq、Polysome profiling等)是鉴定可翻译circRNA的主流技术。然而,这些方法有一定局限性:基于内在RNA序列特征的算法缺乏circRNA特异性;核糖体分析成本高昂,需要复杂的技术。此外,MS可鉴定RNA的翻译产物,但依赖于有限的肽库,传统的蛋白质或肽数据库有待进一步扩展。
近日,山东省第一医科大学孙亮教授团队在Nucleic Acids Res上发表研究论文:CICADA: a circRNA effort toward the ghost proteome。山东大学齐鲁医院范丽媛和山东省第一医科大学附属滨州市人民医院Xinyuan Zhou为论文的共同一作。研究团队提出了CICADA(circRNA编码能力和产物检测算法),用于高通量评估circRNA的蛋白质编码潜力和编码产物。
CICADA算法利用机器学习模型,根据固有的序列特征,识别潜在的可翻译circRNA。同时,CICADA还提供了一个独有的circRNA编码产物识别策略,可作为MS搜索的肽库,以鉴定circRNA编码的蛋白。此外,该研究利用CICADA在食管鳞状细胞癌(ESCC)中鉴定了多种功能性、蛋白质编码的circRNA,并建立了不同类型癌症的circRNA翻译谱。CICADA作为创新性的算法,推动基因组中隐藏的蛋白质组的探索,有望加速癌症和复杂疾病的生物标志物和治疗方法的发现。CICADA可以作为Python模块访问(https://github.com/SunLab-biotool/CICADA)。
CICADA概述
研究首先使用基于ANT矩阵的滑动窗口从训练数据集中导出最高潜在编码区(HPCR),使用动态规划算法选择最优HPCR(图1)。随后,从阳性组和阴性组中提取最佳HPCR或转录本的序列、保守性、结构和机制特性,并将其纳入RF模型进行训练。训练完成后,即可预测circRNA的编码潜力。通常,CICADA使用全长circRNA序列作为输入,输出具有或不具有编码潜力的circRNA的二进制结果。接着,研究使用了一种创新的方法,通过HPCR识别潜在的circRNA编码产物(circProt)(图2)。CICADA基于翻译组学或蛋白组学的证据支持,可以获得高通量、可靠的circRNA编码产物。与多种预测方法相比,CICADA在预测circRNA的潜在编码和编码产物方面呈现出高性能。
图1 CICADA工作流程。
图2 从circRNA的HPCR中鉴定circRNA编码蛋白产物的策略。
评估编码潜力的性能
CPC2和CPAT是目前广泛使用的评估RNA编码潜能评估工具,研究对比了CICADA和上述两种工具的性能,分别在circPro和circBank中预测circRNA的蛋白质编码潜能。此外,主要为线性转录本设计的CNCI作为软件的基线版本。结果表明,CICADA方法的准确率最高,误差率最低;CPAT灵敏度和召回率最高,而特异性和精密度最低;CNCI的特异性和精密度最高,但灵敏度和召回率较低。值得注意的是,CICADA在F1评分、几何平均(GM)和马修斯相关系数(MCC)方面优于CPAT、CPC2和CNCI。此外,与基于混淆矩阵的其他三种方法相比,CICADA表现出更优越的性能。
CircPro需要对每个样本进行RNA-seq和ribo-seq数据的匹配,CircCode依赖ribo-seq数据,CICADA只需要RNA-seq数据。对比验证结果表明,CICADA是预测circRNA编码潜力的一种经济有效的算法。(图3)
图3 评估CICADA预测性能。
食管细胞系中circRNA编码产物的发现
CICADA还可以预测潜在的circRNA编码产物(circProt)。研究使用CICADA和ORFfinder,并匹配的蛋白质组学数据,对食管癌细胞系中的circRNA翻译概况进行研究。基于已知蛋白,与ORFfinder相比,CICADA鉴定出更多新的circRNA编码产物。(图4B)
研究从串联质量标签(TMT) 11-plex标记和Label Free(LF)样品中搜索匹配的原始MS蛋白组数据,寻找可能的肽(图4C)。结果表明,CICADA预测结果中有MS数据支持的circProt明显多于ORFfinder,特别是在LF样本中。
研究还分析了使用CICADA预测的可翻译circRNA和circProt的分子特征。利用psirc生成的这些circRNA的完整序列,鉴定出202,799个可翻译的circRNA,其中4,955个有MS数据的支持(图4D)。这些可翻译的circRNA可分为三种类型:通过滚动环机制进行翻译的;可以在不跨越circRNA连接位点或滚动的情况下翻译成蛋白质;跨越circRNA连接位点但不通过滚环进行翻译的。
图4 评估CICADA预测性能。
鉴定ESCC中可翻译circRNA
研究利用circRNA-seq分析10个ESCC细胞系和两个正常食管细胞系中circRNA,得到ESCC差异表达的circRNA有355个。使用CICADA预测这些circRNA,鉴定出222个具有编码潜能的circRNA,并用MS鉴定了其中4个circRNA的翻译产物。
使用CICADA预测可翻译的circRNA,并挖掘circProts。通过NetMHCpan检测,大多数circProts具有新抗原潜能(图5D),也鉴定出了一些高频新抗原肽序列(图5E)。随着circRNA编码产物长度的增加,新抗原的数量也随之增加(图5F)。大多数这些功能可翻译的circRNAs起源于染色体3和17的CDS。
研究中circRNA-seq由吉赛生物提供。circRNA-seq利用RNase R去除mRNA,从而富集circRNA,相比全转录组测序,circRNA检出率更高!
另外,吉赛生物还可以提供蛋白组以及翻译组分析服务,联合多组学平台助力全方位验证circRNA的翻译功能及翻译产物,让“幽灵蛋白组”无处遁形!
图5 CICADA鉴定ESCC中功能性可翻译circRNA。
CICADA在泛癌circRNA翻译分析的应用
研究使用CICADA,预测了各种癌症类型中可翻译的circRNA,并在MS数据中挖掘circProt(图6B)。大多数这些可翻译的circRNA含有mRNA重叠的区域,特别是在CDS内(图6C)。大多数circRNA的翻译没有跨越环化位点或滚动的情况下进行翻译;可翻译circRNA及其产物集中在1000 nt的范围内(图6D)。相当大比例的circRNA进行滚环翻译或跨越环化位点但未滚环的翻译。这两种翻译机制都产生了新的蛋白质产物(图6E)。GO分析显示,大多数基因与蛋白质结合或酶活性有关(图6F)。
图6 使用CICADA对泛癌的可翻译circRNA进行分析。
总结
CICADA软件可用于准确评估circRNA的编码潜力,并绘制更广泛的circRNA编码概况。创新CICADA的开发是circRNA研究的重大进展,不仅加深了我们对隐藏蛋白质组的理解,而且有助于研究和鉴定circRNA编码的未知蛋白质。凭借其可靠和有效的预测能力,CICADA为深入了解circRNA生物学的复杂领域铺平了道路。