以下文章来源于RNAScript ,作者clara

mRNA疫苗在预防COVID-19方面取得了显著成效,然而,对于科研与产业界来说,更大的挑战才刚刚开始:如何让mRNA的蛋白表达更强、持续时间更长,并且在更广泛的疾病中发挥作用。传统的优化方式往往依赖于GC含量、密码子偏好或局部结构改良,但这些方法如同“修辞微调”,难以触及mRNA设计的全局复杂性。

为了纳入更丰富的上下文信息,基于深度学习的模型已被提出用于CDS优化,均利用长短期记忆(LSTM)网络。然而,这些模型由于LSTM在处理长基因序列方面的不足能力以及非并行化训练导致的效率低下而受到限制,这限制了训练数据的大小并阻碍了模型的泛化能力。

2025年8月28日,MIT哈佛大学Raina Biosciences研究团队在顶刊Science发表论文“Deep generative models design mRNA sequences with enhanced translational capacity and stability”,研究开发了一款生成式mRNA设计平台GEMORNA,借鉴自然语言处理中的Transformer模型,不仅能通过动态规划实现全局优化,自动生成完整的mRNA序列,还在体内外实验中展现了前所未有的表达强度与稳定性 ,抗体反应提升了128倍蛋白表达水平提升了41倍甚至用于circRNA后,体内表达也提升了121倍。这标志着,mRNA研发正进入一个由深度生成模型驱动的智能化阶段。

从“翻译句子”到“编写基因”:语言模型与遗传语言的类比

研究团队将mRNA设计比作语言任务:蛋白质氨基酸序列就像源语言,而mRNA的密码子序列就是目标语言。对于非编码区(UTRs)的设计,更像是自由创作一首有韵律和语法的诗歌。GEMORNA的Transformer架构因此分为两条主线:CDS模型负责精准翻译蛋白信息UTR模型则进行全新序列创作

设计编码区:CDS的“语法优化”

mRNA序列的核心是编码序列(CDS),它直接决定了蛋白的合成效率。传统的CDS设计方法主要关注单个优化目标,例如通过优化核苷酸使用(如GC含量和U百分比)或密码子使用(如密码子适应指数,CAI)来提高mRNA的翻译效率。然而,这些方法过于简化了问题,没有考虑到序列和结构背景对翻译效率的影响。

GEMORNA-CDS模型不仅能学习密码子的使用频率,还能理解“上下文语义”,即相邻密码子间的依赖关系、二级结构的形成趋势,以及序列整体的自然性。在训练过程中,自然CDS序列被标记化并输入解码器进行教师强制学习,而解码器则并行输出密码子概率分布。

使用GEMORNA生成的序列在CAI指数、GC比例、稀有密码子率和不稳定密码子对等多个指标上均优于传统算法 。具体而言,与自然序列、随机生成序列和CAI优化序列相比,GEMORNA CDS具有更高的CAIGC含量,同时保持较低的稀有密码子率和U百分比。这些特性与设计治疗性mRNA的原则一致,有助于提高翻译效率并减少不必要的天然免疫原性

总之,GEMORNA能够在复杂的优化目标之间找到平衡,生成具有高翻译能力和稳定性的CDS序列。

图:GEMORNA-CDS用于设计CDS序列的架构

深入非编码区:UTRs的“语法重写”

过去mRNA设计的短板之一,是5′UTR和3′UTR的优化缺乏系统方法。UTR决定了翻译起始效率和mRNA稳定性,却常常被忽略。

GEMORNA-UTR模型的构建为UTR设计提供了一种新的解决方案。该模型采用仅解码器架构,通过堆叠Transformer解码器来生成UTR,这种架构能够自回归地生成核苷酸,无需依赖源信息,更适合于从头设计UTR。GEMORNA-UTR模型首先在自然UTR上进行预训练,以学习自然遗传序列中的隐含规则。然后,通过使用具有高MRL的5′ UTR和高稳定性的3′ UTR进行微调,使模型能够更好地学习序列模式、上下文依赖的基序和功能特性。

在对比实验中,团队发现五条GEMORNA生成的5′UTR在翻译效率上可与BNT162b2疫苗所用序列媲美,甚至部分表现更佳。更重要的是,研究揭示UTR调控存在高度靶点依赖性:不同蛋白目标下,最佳UTR组合并不相同。这意味着未来mRNA药物设计不能依赖“一刀切”,而需要借助生成模型快速产出多样化UTR候选,并通过高通量实验筛选最佳搭配

图:GEMORNA-UTR用于设计UTR序列的架构

41倍提升:生成式AI写出的mRNA有多强?

在验证了GEMORNA生成的CDS和UTR在体外翻译能力上的优势后,研究人员进一步探索了将这些元素组合成全长度mRNA设计的可能性。

实验结果令人瞩目:研究者首先选择了带有降解标签的荧光素酶Fluc2P作为模型评估工具。传统商业载体在48小时后信号大幅衰减,而GEMORNA设计的四条CDS序列中,多条在48小时的表达量仍显著高于对照,其中最佳者较商用基因提升近5倍。更令人瞩目的是,当结合UTR模型后生成完整的mRNA序列,部分设计在细胞实验中相对基线提高了41倍的表达水平 。

这种效果不仅体现在报告基因上。在治疗性蛋白实验中,GEMORNA设计的人促红细胞生成素(EPO)mRNA在小鼠体内的表达峰值比对照提升了15倍,且持续时间更长。在新冠疫苗抗原实验中,采用GEMORNA生成的全长mRNA包裹入脂质纳米颗粒后,诱导的小鼠抗体滴度显著超过了辉瑞BNT162b2疫苗和目前公开的结构优化算法结果。

图:将GEMORNA设计的CDS和UTRs结合后,获得的全长mRNA序列的蛋白表达水平显著提升

从线性到环状:circRNA的意外红利

团队还将GEMORNA的能力拓展至环状RNA(circRNA)。由于天然circRNA更耐外切酶降解,被认为是下一代RNA疗法的重要方向。实验结果显示,GEMORNA生成的环状EPO RNA在细胞内的累积表达比传统优化方案高出13倍,在小鼠体内的表达峰值更是超过对照121倍,并维持超过一周的高水平输出 

在免疫细胞治疗中,GEMORNA生成的环状CAR-T mRNA同样表现突出:在人源T细胞中,转染后120小时仍有超过50%的细胞维持CAR阳性,而传统设计在72小时内信号几乎消失。更令人兴奋的是,这些T细胞对白血病细胞的杀伤能力显著增强,为非病毒CAR-T疗法提供了可行路径。

图:GEMORNA可用于circRNA的设计

为什么是生成式AI?

与早期的深度学习预测模型不同,GEMORNA并非只做“打分”,而是直接生成全新序列。其核心优势体现在三点:

第一,能够在不依赖大规模标注的情况下自主学习序列规律,实现“零样本”生成;第二,设计出的mRNA不仅在传统指标上优化,更能展现跨物种与跨蛋白目标的普适性;第三,模型可扩展到环状RNA等新型分子,为未来更多RNA疗法奠定技术基础 。

不过,作者也坦言,模型仍然是一个“黑箱”,其学习到的序列特征难以完全解释,如何结合高通量实验数据进行进一步验证,将是未来提升可靠性的重要方向。

图:GEMORNA设计全长治疗性mRNA概述图

总结

回顾mRNA的历史,从最初的基础研究到新冠疫情中的大规模应用,再到今天AI驱动的序列生成,技术演进的速度令人惊叹。GEMORNA的出现为mRNA药物研发提供了新的范式:我们或许不再局限于“修饰已有序列”,而是可以像写文章一样,直接让AI生成更具表达力与稳定性的“新语言”。

这一突破意味着,mRNA药物和疫苗的未来将更加灵活高效,从癌症免疫疗法到罕见病替代疗法,再到个性化疫苗,都可能因为AI的介入而加速实现。从科学角度来看,这是对“生命语言”最深刻的一次重写尝试;从临床角度来看,它则可能开启一个全新的RNA医药时代。

原文链接:

https://www.science.org/doi/10.1126/science.adr8470

参考文献:

Zhang H, Liu H, Xu Y, et al. Deep generative models design mRNA sequences with enhanced translational capacity and stability. Science. Published online August 28, 2025. doi:10.1126/science.adr8470

发表评论