Evo2作者、斯坦福计算生物学家BrianHie:AI可发现人类无法看到的模式

编辑 | ScienceAI
最近,科学家发布了有史以来最大的生物学人工智能(AI)模型 ——Evo 2。
该模型基于 128,000 个基因组进行训练,涵盖了从人类到单细胞细菌和古细菌的生命之树,可以从头开始编写整个染色体和小基因组。它还可以理解现有的 DNA,包括与疾病相关的难以解释的「非编码」基因变体。
Evo 2 由美国 Arc 研究所(Arc Institute)和斯坦福大学的研究人员以及芯片制造商 NVIDIA 共同开发,科学家可以通过线上界面使用,也可以免费下载其软件代码、数据和复制模型所需的其他参数。

项目链接:https://github.com/ArcInstitute/evo2
早在去年 11 月,Evo 的第一个版本 (在 80,000 种细菌、古细菌和病毒的基因组上进行训练)就登上了《Science》杂志封面。

Evo 及 Evo 2 的突破是不言而喻的,研究团队是如何实现这些突破的?
在 Evo 2 发布之前,外媒《Quanta Magazine》曾采访 Evo 研究团队主要成员、论文通讯作者 —— 斯坦福大学计算生物学家 Brian Hie,采访围绕 DNA 与人类语言之间的相似之处,Evo 能做什么和不能做什么等话题展开。Brian Hie 表示:「人类很难理解生物序列」,而「Evo 发现了人类无法看到的模式」。

图示:Evo 团队核心成员,Brian Hie(中)。
ScienceAI 对《Quanta Magazine》访谈核心内容进行了不改变原意的编译、整理,内容如下。
是什么让你认为 DNA 可以像语言一样处理?
DNA 本身像人类自然语言一样是序列化的。它是由离散的「token」或构建块组成的序列。我们将人类自然语言 tokenize 为单词、字母或汉字。在生物学中,一个 token 可以对应一个 DNA 碱基对或一个氨基酸。
就像自然语言一样,DNA 也有其自然结构。这些序列并不是随机的。自然语言中的许多结构也是非正式的,可能是模糊的,并且一直在变化。同样地,DNA 序列也有一些模糊性。相同的序列在不同的上下文中可能意味着不同的事物。
怎么想到将 LLM 应用于 DNA?
分子生物学的中心法则是一个非常美丽的东西。它指出 DNA 编码 RNA,RNA 编码蛋白质。所以如果你在 DNA 上训练一个模型,并且它是一个好模型,你就可以免费获得 RNA 和蛋白质的语言建模,因为 DNA 和蛋白质序列之间有直接的对应关系。
你还可以在基因组本身上进行训练:基因在基因组上彼此相邻。当你训练一个蛋白质语言模型时,你基本上会取整个基因组并剪掉所有编码蛋白质的部分,然后分别训练所有这些小部分。但这忽略了蛋白质所在的广阔遗传背景。特别是在微生物基因组中,功能相关的蛋白质在基因组上直接相邻,所以这些蛋白质编码区域在基因组上的顺序很重要,而在蛋白质语言模型中失去了这些信息。
我意识到在更基础的层次上训练模型 —— 从蛋白质下降到 DNA—— 可以扩展模型的能力。
如何训练 Evo「阅读」DNA?
蛋白质和 DNA 语言模型之间的一个重要区别是模型用于进行下一个碱基对预测的序列长度,我们称之为「上下文长度」。上下文长度类似于一个人一次可以看到的小说的一两页。Evo 是在由许多基因组组成的「小说」上训练的。
这需要一些技术发展,因为长的上下文长度消耗大量的计算能力。计算需求随着上下文长度的增加呈二次方增长,但幸运的是,已有一些研究找到了方法来减少长上下文所需计算。斯坦福实验室的一名学生帮我们将相关进展应用到我们的 DNA 模型中。
Evo 的训练数据集也很重要。从蛋白质语言建模中,我了解到序列多样性很重要。当向模型展示生命的进化替代方案,模型就可以利用这些替代方案来学习一般规则。
你是如何测试 Evo 的,它的表现如何?
我们给 Evo 提供了具有各种突变的蛋白质编码 DNA 序列。任务是预测这些突变的「进化可能性」,即它们在自然界中存在的概率。被认为可能的突变应该在实验室中保持或改善蛋白质的功能,不可能的突变应该与功能不良相关。
Evo 没有任何关于功能的明确知识。它只知道过去进化中使用了哪些突变。此外,模型仅在 DNA 上进行训练,没有任何关于 DNA 的哪些部分与蛋白质匹配的指导。因此,Evo 必须弄清楚 DNA 如何编码蛋白质,以及蛋白质在基因组上的起始和终止位置。
我们通过蛋白质功能的实验测试对 Evo 得出的可能性进行了评分。我们发现:如果某个碱基对在 Evo 模型下具有高可能性,那么该碱基对很可能会保持或改善蛋白质的功能;如果该碱基对的可能性较低,那么将其插入序列中很可能会破坏蛋白质功能。
LLM 容易出错,Evo 是否更准确?
对于ChatGPT,你希望它能准确掌握事实。而在生物学中,这些「幻觉」几乎可以被视为一种特性而非缺陷。如果某个奇特的新序列在细胞中起作用,生物学家会认为这是新颖的。
但 Evo 确实也会犯错。例如,它可能根据某个序列预测出一种蛋白质结构,但当我们在实验室中合成这种蛋白质时,结果可能是错误的。
原文链接:https://www.quantamagazine.org/the-poetry-fan-who-taught-an-llm-to-read-and-write-dna-20250205/
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。