AI病毒进化预测新突破,北大团队进化启发通用预测框架登Nature子刊
编辑 |ScienceAI
在自然界,物种多样性与生物体内承载功能的蛋白质相互约束,这是因为蛋白质作为功能的载体决定了生物的性状,而这些性状经过选择压力筛选后形成了当下的物种多样性分布。从达尔文进化论角度来看,所有的进化都是基因适应环境的效应。
受此启发,北京大学信息工程学院田永鸿教授、陈杰副教授指导博士生聂志伟、硕士生刘旭东基于进化论视角重新审视病毒进化预测难题,提出了解决病毒进化两大本质问题的跨病毒类型、跨毒株类型的通用进化预测模型,为疫苗、药物的快速主动更新以及提高人类对于新发病毒感染的响应速度提供了强大工具,支撑和加速对于物种复杂进化机制的探索。
该研究以「A unified evolution-driven deep learning framework for virus variation driver prediction」为题于2025年1月17日正式发表在《Nature Machine Intelligence》上。
论文链接:https://www.nature.com/articles/s42256-024-00966-9
研究亮点
(1)探讨了如何定制化蛋白质语言模型以适配进化预测任务,提出了定制化预训练策略和数据集,为蛋白质语言模型预训练与下游任务之间的权衡提供了研究新视角;
(2)从进化论角度凝练了病毒进化的两大本质问题,从而通过「微弱突变放大」和「稀少有益突变挖掘」两个创新设计实现了跨病毒类型和跨毒株类型的通用预测,实现了 Science 和 AI 架构的高度融合;
(3)突变所处相互作用网络的全面重建模块(包含动态粒度注意力机制以挖掘 motif 模式)以及提出的多任务焦点损失函数适用于蛋白质通用体系,可进一步拓展用于各类蛋白质性质预测及蛋白质定向进化;
(4)实现了不同尺度的病毒进化预测,未来可与疫苗和蛋白类药物设计流程相结合,有望显著提升设计效率和设计可控度。
进化启发的通用预测框架
突变是病毒进化的基石,不同病毒的具体进化历程各有其独特性,但是其共性在于最终的进化结果中几乎都是有害突变占据大多数。
从整个进展尺度来看,即使有害突变与有益突变的比例会随物种和环境不同而有所区别,但是有害突变被认为总是远多于有益突变,即有益突变是病毒蛋白进化适应度空间中的极小子集。
很自然地,有害突变的高发性使得同一个变异株内难以共存较多的突变,即一个变异株所具有的突变数量与原始型相比往往较少,仅有少数位点会发生突变。
因此,研究团队将上述病毒进化轨迹凝练为病毒进化的两大本质特点:「少数位点突变」(Few-site mutations)和「稀少有益突变」(Rare beneficial mutations)。
这两大进化特点导致了明显的建模难题,「少数位点突变」引起的分子内相互作用网络的变化相对比较微弱,这使得神经网络直接捕获是极其困难的,而「稀少有益突变」在数据层面造成了极其严重的正负样本不平衡问题,这对于精准预测对于病毒生存至关重要的稀少有益突变造成了巨大挑战。
图 1:E2VD 模型架构。(来源:论文)
为此,研究团队提出了进化驱动的病毒变异驱动力预测框架 E2VD(图 1),通过「微弱突变放大」和「稀少有益突变挖掘」两个创新设计实现了跨病毒类型和跨毒株类型的统一预测。
核心组件包括面向病毒进化的定制化蛋白质大语言模型(国产 AI 超算「鹏城云脑 II」256 张 NPU 支撑训练)、突变所处相互作用网络的全面重建模块(包含动态粒度注意力机制以挖掘 motif 模式)以及提出的多任务焦点损失函数。
进化模式的精准捕获
以SARS-CoV-2 的三类关键病毒进化驱动力预测任务为例,团队首先比较了面向进化场景的定制化蛋白质语言与主流蛋白质语言模型的预测表现。
结果表明,团队定制化的蛋白质语言模型以最少的 340M 模型参数量实现了最佳的预测表现,甚至超越了参数量为其 44 倍的 ESM2-15B 的效果,这进一步证明了定制化的预训练数据集和训练策略的有效性。
随后,团队在各类关键病毒进化驱动力预测任务下比较了 E2VD 与主流方法,结果表明 E2VD 显著且全面超越其他方法,性能提升在 7%-21% 不等。
E2VD 被大量消融实验证明了对于病毒进化模式的精准捕获,包括对于不同类型突变的精准区分以及对稀少有益突变的精准挖掘。
团队提出的多任务焦点损失函数被证明显著改善了预测表现,将 Accurate从57.41% 提升至 91.11%,将 Recall从15.56% 提升至 96.30%。
在与真实世界变异毒株对应的稀少有益突变预测实验设置下,E2VD 将稀少有益突变的预测精度从 13% 提升至 80%,实现了跨越式精度提升。
图 2:E2VD 对于突变类型的区分和稀少有益突变的精准挖掘。(来源:论文)
跨病毒类型和跨毒株的泛化性能
E2VD 在跨越病毒类型和毒株类型时展现出强大的泛化能力。研究团队提出鲁棒且避免实验批次效应影响的突变所致病毒适应度变化评估指标,并以此评估了模型在同病毒类型的不同毒株之间以及不同病毒类型之间的泛化表现,在新冠病毒、寨卡病毒、流感病毒以及艾滋病病毒上展现出理想的泛化能力,始终超越其他方法,未来可进一步拓展至更多传染性病毒。
图 3:E2VD 跨病毒类型和跨毒株的泛化性能。(来源:论文)
多尺度进化趋势预测
E2VD 可用于灵活定制化组合以实现不同尺度的进化趋势预测。首先,E2VD 可用于解释大流行内部进化轨迹,揭示毒株流行度背后隐藏的分子机制;其次,搭配虚拟深度突变扫描流程,E2VD 可实现潜在高风险突变的精准预测,达到 80% 的命中率。
除此之外,E2VD 实现了对于大流行尺度的宏观进化轨迹预测,重现了病毒在真实世界中的进化路线,对病毒进化机制的解读提供理论性支撑。
图 4:E2VD 解释大流行内部进化轨迹以及预测潜在高风险突变。(来源:论文)
总结与展望
该研究以进化论的视角重新审视病毒进化预测问题,发展了跨病毒类型和跨毒株的通用进化预测框架,有助于破解物种复杂的进化机制,提高人类对于新发病毒感染的响应速度。凭借优越的预测表现和强大的泛化性,研究团队下一步计划将 E2VD 与疫苗和蛋白类药物设计流程相结合,以期提升设计效率和设计可控度。
自 2022 年起,北京大学田永鸿教授领衔的团队即着眼于 AI for Life Science 的研究,发展系列生命科学基础模型并开展广泛的下游任务探索。
前期工作提名 2022 年度戈登贝尔特别奖,与美国阿贡国家实验室、橡树岭国家实验室团队在世界舞台上角逐这一超级计算机领域的国际最高奖项,展现了中国人工智能在计算集群(国产 AI 超算鹏城云脑 II)和科研创新领域的国际顶尖水平。
除此之外,团队先后获得 2023 年度广东省科学技术奖科技进步奖特等奖、首届「祖冲之奖——人工智能前沿创新奖年度重大成果奖」以及国家数据局 2024 年「数据要素×」大赛广东省一等奖、全国二等奖等荣誉。
论文链接:https://www.nature.com/articles/s42256-024-00966-9
入围戈登贝尔特别奖新闻链接:https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。