LLM自主发现发表在Nature上的科学假设?ICLR2025论文MOOSE-Chem深度解析
编辑 | ScienceAI
人工智能的下一个前沿,不仅是语言、图像,而是科学发现本身。
近年来,人工智能(AI)已经在自然语言处理(NLP)、计算机视觉(CV)等领域取得巨大成功。但 AI 是否能够帮助科学家发现新的科学理论?
在 ICLR 2025 接收的一篇论文《MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses》提出了一个令人兴奋的问题:
大模型(LLMs)能否在仅依赖化学研究背景信息的情况下,自动发现新的、有效的化学科学假设?
这项研究发现 LLM 可以自主发现新颖(novel)且可行(valid)的科学假设,甚至可以重新发现那些已经发表在 Nature, Science 上的顶级化学科学假设。
这项研究通过划分使用的 LLM 的 pretrain data 的截止时间,与 Nature, Science 上文章的 online 时间确保这种重新发现不是由于数据污染(data contamination),而是由于 LLM 本身的能力。
这项研究不仅提供了关于科学假设形成的数学建模,还提出了 Agentic AI for scientific discovery 的 framework,让 LLM 能够自动生成并筛选科学假设,为 AI 在科学研究中的应用提供了新思路。
MOOSE-Chem 研究的核心假设是:
化学研究假设 h 不是凭空创造的,而是由研究背景 b 和若干研究灵感 i 组合而成的。
研究团队通过认知科学、论文分析和数学建模,系统性地验证了这一假设的合理性,并建立了数学推导,形成 AI 可执行的科学发现框架。
MOOSE-Chem 核心假设的提出
(1) 认知科学的启发
创造力研究表明,创新通常来自已有知识的重新组合,这一点可以追溯到:
知识重组理论(Knowledge Recombination)(Koestler, 1964):科学发现往往源于跨领域知识的结合。联想理论(Association Theory):创新通常通过已有概念的连接产生。例如:
反向传播(Backpropagation)算法来源于「链式求导 + 多层神经网络」。许多新型催化剂的发现来源于「已有材料 + 新工艺」的结合。这些理论表明,化学研究假设很可能是由背景知识(b)+ 研究灵感(i) 组合产生的。
(2) 顶级化学论文的分析
研究团队通过利用核心假设,链式法则,和引入马尔科夫性质,得到 P( h | b)的一个约等式。
最终研究团队得到。其中,I代表所有的(化学)科学文献。该约等式将复杂的难以建模的 P( h | b)转换成了一系列难度显著降低的可以建模的小项的乘积。
MOOSE-Chem 框架详解:AI 如何进行自动科学发现?

1. 文献检索(Literature Retrieval)——找到潜在研究灵感:
MOOSE-Chem 在这一过程中使用了大语言模型(LLMs)结合信息检索的方法,帮助 AI 从大量化学论文中筛选出可能的研究灵感。
方法:
基于 LLM 的语义检索
·研究背景 作为输入,LLM 通过语义相似性搜索(Semantic Search)在论文数据库 中找到相关研究。·例如,如果研究背景涉及某种新型催化剂,LLM 会检索相关的催化剂研究,并提取其中的关键技术或方法。2. 假设生成(Hypothesis Generation)——从背景和灵感构造研究假设:
有了研究灵感后,MOOSE-Chem 需要根据背景信息和灵感,构造新的科学假设。这个过程类似于科学家在头脑风暴时结合已有知识提出研究方向。
方法:
(1)基于 LLM 的 Prompt 生成

(2)进化优化(Evolutionary Optimization)
仅靠 LLM 直接生成假设并不能保证其高质量,因此 MOOSE-Chem 进一步采用进化算法(Evolutionary Algorithm)优化假设。这一过程包含三个关键步骤:
变异(Mutation):对初始假设进行调整,例如改变催化剂的类别、调整反应条件等,以探索更多可能性。精炼(Refinement):让 LLM 通过自我反馈机制对假设进行改进,使其更加科学合理。例如,模型可能会检查是否有足够的实验依据支持假设,或调整表达方式以提高清晰度。重组(Recombination):从多个假设变体中筛选最佳元素,组合成最终的高质量假设。这类似于科学家在论文写作过程中不断优化研究思路的过程。3. 假设排序(Hypothesis Ranking)——筛选最优科学假设
MOOSE-Chem 生成了多个可能的研究假设,但并非所有假设都合理。因此,MOOSE-Chem 需要对生成的假设进行评估,并筛选出最优的科学假设。
方法:
基于 GPT-4o 的评分
让 GPT-4o 评估每个假设的创新性、合理性、实验可行性。主要实验结果
1、LLM 能够成功识别与研究背景相关但未知的启发性论文
在 3000 篇论文库中,LLM 能够找到 75% 以上的真实启发论文,即使只筛选出 4% 的论文。结果表明,LLM 可能已经学习到了许多科学家未知的知识关联。2、LLM 能够基于已知知识推理出高质量的新知识
采用严格背景信息和文献筛选策略后,LLM 生成的假设与真实假设的相似度较高:28个假设的最高匹配评分(Top MS)为 4 或 5 分(满分 5 分)其中 9 个假设的最高匹配评分达到了 5 分(几乎与真实假设一致)说明 LLM 具备从背景+启发中推理出创新性假设的能力。3、LLM 能够有效地对假设进行排名
采用 LLM 评分机制,高质量假设通常排名更高。与真实论文中使用的启发数量相关性较强,即:启发匹配越多,排名越高
匹配评分越高,排名越高
说明 LLM 在一定程度上能够筛选出更有价值的假设。最终发现
1、MOOSE-Chem 生成的假设可以在不访问真实假设的情况下,覆盖论文的核心创新点。
在51篇论文的评测中,近 40% 的实验生成假设与真实假设高度相似。
专家评估显示,在模拟现实科学研究环境(300 篇论文库)下,MOOSE-Chem 仍能生成接近真实论文的假设。
2、多步启发和变异/重组策略有效提升了假设质量。
相比现有方法(如SciMON, MOOSE),MOOSE-Chem 在最高匹配评分(Top MS)和平均匹配评分(Average MS)上均有显著提升:MOOSE-Chem:Top MS = 4.02, Avg MS = 2.56MOOSE: Top MS = 2.88, Avg MS = 2.46SciMON(NLP/Biochemical 领域):Top MS = 2.55, Avg MS = 2.28说明进化算法(mutation & recombination)能够提升假设的创造性和合理性。3、在实际应用中,MOOSE-Chem 可作为科研助理协助研究人员提出高质量假设。
在科学研究过程中,MOOSE-Chem 可用于自动检索启发性文献、生成研究假设,并提供初步筛选排名,减少研究人员的筛选和构思时间。- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。
热门文章
