AI驱动的模拟科学家,涉及生理学、生物物理学、物理化学和量子力学多个领域,登Nature子刊
编辑 | 萝卜皮
大型语言模型(LLM)是一种人工智能系统,以自然语言的形式封装大量知识。这些系统擅长许多复杂任务,包括创意写作、讲故事、翻译、问答、总结和计算机代码生成。
尽管 LLM 已在自然科学领域得到初步应用,但其推动科学发现的潜力仍未得到充分开发。
在最新的研究中,澳大利亚莫纳什大学(Monash University)的研究团队提出了 LLM4SD,这是一个框架,旨在通过综合文献中的知识和从科学数据中推断知识,利用 LLM 推动分子特性预测中的科学发现。
LLM 通过从科学文献中提取关键信息(如分子量与溶解度的关系)并识别分子数据中的模式(如含卤素分子更易穿透血脑屏障),将分子转化为可解释的特征向量。再结合随机森林等模型,LLM4SD 在分子特性预测任务中表现优异。
该研究以「Large language models for scientific discovery in molecular property prediction」为题,于 2025 年 2 月 25 日发布在《Nature Machine Intelligence》。

LLM 是在大量文本语料库上进行训练的,其中包括大量科学文献。BioBert、SciBERT、Med-PALM 和 Galactica 等著名模型都是专门针对科学领域量身定制的。同时,像 Falcon 这样的通用 LLM 在其预训练中整合了大量科学文献,包括 arXiv 和 Wikipedia 等来源。
科学家已经证明了这些系统获得了深刻的能力来解释和操纵用于描述分子的形式科学语言、SMILES 字符串,以及在其解释中应用来自科学文献的信息的能力。
莫纳什大学的研究团队提出了一种科学发现流程 LLM4SD(Large Language Model 4 Scientific Discovery),旨在解决复杂的分子特性预测任务。LLM4SD 通过执行两个主要任务来发挥作用:从现有文献中合成知识并通过观察实验数据推断知识。

图示:分子预测流程中的 LLM4SD。(来源:论文)
LLM4SD 通过指定规则来从 SMILES 字符串中导出与预测目标特征相关的特征。其中一些规则是从 LLM 编码的科学文献中综合而来的。其他特征则从 SMILES 字符串训练集推断而来,每个字符串都标有相关类别或属性值。然后可以使用基于规则的特征从训练数据中学习标准机器学习模型。

图示:探究 LLM4SD 的组成部分。(来源:论文)
具体而言,首先,LLM4SD 根据其预训练文献检索已知规则来预测分子特性,例如分子量低于 500 Da 的分子更有可能通过血脑屏障 (BBB)。其次,利用对 SMILES 符号和化学知识的理解,LLM4SD 从实验数据中识别模式,例如含有卤素的分子更有可能通过 BBB。然后使用这些规则为每个分子创建可解释的特征向量。
「就像 ChatGPT 写论文或解决数学问题一样,我们的 LLM4SD 工具会阅读数十年的科学文献并分析实验室数据来预测分子的行为方式,从而回答诸如『这种药物能穿过大脑的保护屏障吗?』或『这种化合物会溶于水吗?』」论文的共同一作 Yizhen Zheng 说。
「除了优于目前像『黑匣子』一样运行的验证工具之外,该系统还可以使用简单的规则解释其分析过程、预测和结果,这可以帮助科学家信任并根据其见解采取行动。」他补充道。

图示:LLM4SD 与四个领域的基线之间的比较。(来源:论文)
通过使用这些向量训练可解释的机器学习模型,研究人员表示 LLM4SD 在由斯坦福 PANDE 小组整理的MoleculeNet数据集中的 58 个基准任务中实现了分子特性预测的当前最佳水平。这些任务涵盖分类和回归,涉及四个领域:生理学、生物物理学、物理化学和量子力学。

图示:LLM 规则下的文献综述和统计分析。(来源:论文)
作者之一 Jiaxin Ju 表示:「LLM4SD 并非取代传统的机器学习模型,而是通过综合知识和生成可解释的解释来增强它们。」
「这种方法确保了人工智能驱动的预测仍然可靠,并且可供不同科学学科的研究人员使用。」共同作者 Huan Yee Koh 补充道
该研究的共同通讯作者、莫纳什大学信息技术学院的 Geoffrey I. Webb 教授表示,LLM 可以准确地模仿从文献中综合提炼知识和通过解释数据提出假设的关键科学发现技能。
LLM4SD 工具的表现优于目前用于执行这些任务的最先进的科学工具;例如,它在预测材料设计关键的量子特性方面的准确率提高了 48%。
虽然取得了这些令人欣喜的成果,研究人员也承认科学发现领域广阔而复杂;这项研究还只是触及了表面。尽管如此,LLM4SD 取得的进展为更深入的探索铺平了道路,预示着一个人工智能驱动的洞察力与人类智慧交织在一起以纠正当前科学生产力下降的时代的到来。
Webb 教授表示:「我们已经完全进入了生成人工智能时代,我们需要尽可能利用它来推动科学发展,同时确保我们以合乎道德的方式发展它。」
「该工具有可能使药物发现过程更容易、更快、更准确,并成为世界各地各个领域科学家的强大研究支持。」论文的共同通讯作者 Shirui Pan 教授表示。
「像 LLM4SD 这样的模型可以快速综合数十年的先验知识,然后转而发现数据中可能未被广泛报道的新模式。」Pan 教授说,「我们认为这是加快研发进程及其他方面的关键进展。」
展望未来,科学家们对人工智能作为未来科学发现、革命性流程和加速突破的关键所发挥的潜在作用持乐观态度。
论文链接:https://www.nature.com/articles/s42256-025-00994-z
相关报道:https://techxplore.com/news/2025-02-simulating-scientists-tool-ai-powered.html
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。