LLM自主发现发表在Nature上的科学假设？ICLR2025论文MOOSE-Chem深度解析

首页 > AI资讯 > 最新资讯 > LLM自主发现发表在Nature上的科学假设？ICLR2025论文MOOSE-Chem深度解析

LLM自主发现发表在Nature上的科学假设？ICLR2025论文MOOSE-Chem深度解析

新火种 2025-02-07

编辑 | ScienceAI

人工智能的下一个前沿，不仅是语言、图像，而是科学发现本身。

近年来，人工智能（AI）已经在自然语言处理（NLP）、计算机视觉（CV）等领域取得巨大成功。但 AI 是否能够帮助科学家发现新的科学理论？

在 ICLR 2025 接收的一篇论文《MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses》提出了一个令人兴奋的问题：

大模型（LLMs）能否在仅依赖化学研究背景信息的情况下，自动发现新的、有效的化学科学假设？

这项研究发现 LLM 可以自主发现新颖（novel）且可行（valid）的科学假设，甚至可以重新发现那些已经发表在 Nature, Science 上的顶级化学科学假设。

这项研究通过划分使用的 LLM 的 pretrain data 的截止时间，与 Nature, Science 上文章的 online 时间确保这种重新发现不是由于数据污染（data contamination），而是由于 LLM 本身的能力。

这项研究不仅提供了关于科学假设形成的数学建模，还提出了 Agentic AI for scientific discovery 的 framework，让 LLM 能够自动生成并筛选科学假设，为 AI 在科学研究中的应用提供了新思路。

论文链接：https://arxiv.org/abs/2410.07076

MOOSE-Chem 研究的核心假设是：

化学研究假设 h 不是凭空创造的，而是由研究背景 b 和若干研究灵感 i 组合而成的。

研究团队通过认知科学、论文分析和数学建模，系统性地验证了这一假设的合理性，并建立了数学推导，形成 AI 可执行的科学发现框架。

MOOSE-Chem 核心假设的提出

(1) 认知科学的启发

创造力研究表明，创新通常来自已有知识的重新组合，这一点可以追溯到：

知识重组理论（Knowledge Recombination）（Koestler, 1964）：科学发现往往源于跨领域知识的结合。联想理论（Association Theory）：创新通常通过已有概念的连接产生。

例如：

反向传播（Backpropagation）算法来源于「链式求导 + 多层神经网络」。许多新型催化剂的发现来源于「已有材料 + 新工艺」的结合。

这些理论表明，化学研究假设很可能是由背景知识（b）+ 研究灵感（i）组合产生的。

(2) 顶级化学论文的分析

研究团队通过利用核心假设，链式法则，和引入马尔科夫性质，得到 P（ h | b）的一个约等式。

最终研究团队得到。其中，I代表所有的（化学）科学文献。该约等式将复杂的难以建模的 P（ h | b）转换成了一系列难度显著降低的可以建模的小项的乘积。

MOOSE-Chem 框架详解：AI 如何进行自动科学发现？

1. 文献检索（Literature Retrieval）——找到潜在研究灵感:

MOOSE-Chem 在这一过程中使用了大语言模型（LLMs）结合信息检索的方法，帮助 AI 从大量化学论文中筛选出可能的研究灵感。

方法：

基于 LLM 的语义检索

·研究背景作为输入，LLM 通过语义相似性搜索（Semantic Search）在论文数据库中找到相关研究。·例如，如果研究背景涉及某种新型催化剂，LLM 会检索相关的催化剂研究，并提取其中的关键技术或方法。

2. 假设生成（Hypothesis Generation）——从背景和灵感构造研究假设:

有了研究灵感后，MOOSE-Chem 需要根据背景信息和灵感，构造新的科学假设。这个过程类似于科学家在头脑风暴时结合已有知识提出研究方向。

方法：

（1）基于 LLM 的 Prompt 生成

例如，如果背景涉及某种电化学反应，灵感来自某种新的催化材料，LLM 会根据新的催化材料来构造新型电化学方案。

（2）进化优化（Evolutionary Optimization）

仅靠 LLM 直接生成假设并不能保证其高质量，因此 MOOSE-Chem 进一步采用进化算法（Evolutionary Algorithm）优化假设。这一过程包含三个关键步骤：

变异（Mutation）：对初始假设进行调整，例如改变催化剂的类别、调整反应条件等，以探索更多可能性。精炼（Refinement）：让 LLM 通过自我反馈机制对假设进行改进，使其更加科学合理。例如，模型可能会检查是否有足够的实验依据支持假设，或调整表达方式以提高清晰度。重组（Recombination）：从多个假设变体中筛选最佳元素，组合成最终的高质量假设。这类似于科学家在论文写作过程中不断优化研究思路的过程。

3. 假设排序（Hypothesis Ranking）——筛选最优科学假设

MOOSE-Chem 生成了多个可能的研究假设，但并非所有假设都合理。因此，MOOSE-Chem 需要对生成的假设进行评估，并筛选出最优的科学假设。

方法：

基于 GPT-4o 的评分

让 GPT-4o 评估每个假设的创新性、合理性、实验可行性。

主要实验结果

1、LLM 能够成功识别与研究背景相关但未知的启发性论文

在 3000 篇论文库中，LLM 能够找到 75% 以上的真实启发论文，即使只筛选出 4% 的论文。结果表明，LLM 可能已经学习到了许多科学家未知的知识关联。

2、LLM 能够基于已知知识推理出高质量的新知识

采用严格背景信息和文献筛选策略后，LLM 生成的假设与真实假设的相似度较高：28个假设的最高匹配评分（Top MS）为 4 或 5 分（满分 5 分）其中 9 个假设的最高匹配评分达到了 5 分（几乎与真实假设一致）说明 LLM 具备从背景+启发中推理出创新性假设的能力。

3、LLM 能够有效地对假设进行排名

采用 LLM 评分机制，高质量假设通常排名更高。与真实论文中使用的启发数量相关性较强，即：

启发匹配越多，排名越高

匹配评分越高，排名越高

说明 LLM 在一定程度上能够筛选出更有价值的假设。

最终发现

1、MOOSE-Chem 生成的假设可以在不访问真实假设的情况下，覆盖论文的核心创新点。

在51篇论文的评测中，近 40% 的实验生成假设与真实假设高度相似。

专家评估显示，在模拟现实科学研究环境（300 篇论文库）下，MOOSE-Chem 仍能生成接近真实论文的假设。

2、多步启发和变异/重组策略有效提升了假设质量。

相比现有方法（如SciMON, MOOSE），MOOSE-Chem 在最高匹配评分（Top MS）和平均匹配评分（Average MS）上均有显著提升：MOOSE-Chem：Top MS = 4.02, Avg MS = 2.56MOOSE: Top MS = 2.88, Avg MS = 2.46SciMON（NLP/Biochemical 领域）：Top MS = 2.55, Avg MS = 2.28说明进化算法（mutation & recombination）能够提升假设的创造性和合理性。

3、在实际应用中，MOOSE-Chem 可作为科研助理协助研究人员提出高质量假设。

在科学研究过程中，MOOSE-Chem 可用于自动检索启发性文献、生成研究假设，并提供初步筛选排名，减少研究人员的筛选和构思时间。

Tags:

深度学习深度自主

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

LLM自主发现发表在Nature上的科学假设？ICLR2025论文MOOSE-Chem深度解析

LLM自主发现发表在Nature上的科学假设？ICLR2025论文MOOSE-Chem深度解析

百度智能云上架DeepSeekR1/V3，上线首日超1.5万家客户调用

钉钉AI助理接入DeepSeek，支持深度思考

医疗AI的隐形危机：大语言模型过度自信，如何破解？

腾讯云TI平台支持DeepSeek系列模型，开发者可免费体验、一键部署

热门文章

联想AIPC全家桶接入DeepSeek，本地跑70B大模型，离线也能写总结

AI图像生成平台「LiblibAI」获数亿元融资

AI剧本风控项目启动天使轮融资

【VIP机会日报】机器人概念再度走强栏目追踪行业动态提及产业相关公司强势涨停

紫光国微：在特种集成电路业务方面强化业务能力、提升发展质量

联芸科技：我司已量产的商用产品暂未应用于无人驾驶

L3上路倒计时？工信部加快推进智能网联车规划产业基建+商业化迎来关键节点

资讯出海，扬帆起航正当时！

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议