给AI一个词就能测出科研创造力?人大高瓴团队最新研究:模型智商高未必最有创意
编辑 | ScienceAI
「高智商就一定最有创造力吗?」这个困扰教育界多年的问题,如今也出现在了 AI 领域。
近日,中国人民大学高瓴人工智能学院孙浩教授研究团队发布了一项突破性研究:「只需在给 AI 的提示词里变化一个科学关键词,就能评估它的科研创造力。更有趣的是,研究发现模型的通用智能水平与创新能力并不总是成正比。」该文章第一作者为博士生阮恺。
这项名为 LiveIdeaBench 的研究已于 2024 年 12 月 23 日发布在 arXiv 预印本平台。
为什么要「考」AI 的科研创造力?
当前 AI 在数学推理、代码生成等领域已达到超人类表现。最新的 o1 更是在各类智力测试中创造记录。但一个关键问题是:这些模型真的具备科研创新能力吗?
「现有的 AI 评测大多依赖大量背景信息,这可能掩盖了模型真正的创造力。」论文通讯作者孙浩教授表示,「但纵观科学史,很多重大发现往往源于一个简单的灵感。我们希望测试AI是否也具备这种能力。」
令人意外的发现:高智商不等于高创造力
研究团队对包括 OpenAI 的 o1、Google 的 Gemini、Anthropic 的Claude在内的 20 个主流大模型进行了测试。结果令人惊讶:
- Gemini Pro 1.5 表现最为均衡,在原创性、可行性等维度均名列前茅;
- QwQ-32B-Preview 模型虽然在通用任务评测中表现一般,但创造力测试中却与顶尖模型不相上下;
- Claude 3.5 Sonnet 在原创性方面遥遥领先,但可行性评分相对较低。
「这说明模型的通用智能与科研创造力是两个相对独立的维度。」研究人员指出,「就像人类中 IQ 高的人不一定最有创造力一样,AI 的发展也需要在『聪明』和『有创意』之间找到平衡。」
四个维度全面评估
LiveIdeaBench 基于经典的 Guilford 创造力理论,从四个维度评估模型的科研创造力:
- 原创性(Originality):想法的新颖程度;
- 可行性(Feasibility):技术实现的可能性;
- 流畅性(Fluency):产生多样化想法的能力;
- 灵活性(Flexibility):跨学科创新的能力。
测试覆盖了从物理到生物等 18 个学科领域的 1180 个科研关键词。为保证评测的公平性和时效性,该基准采用动态评审机制,由多个顶尖模型组成评审团,每月更新一次。
论文第一作者阮恺表示:「LiveIdeaBench 不仅是一个评测基准,更是探索 AI 科研创造力的新窗口。我们希望这项工作能推动 AI 在科学创新方面的进步,为人工智能辅助科学发现开辟新的可能。」
有趣的是,测试发现专注于推理的 QwQ-32B-Preview 模型虽然在通用任务上表现平平,但在科研创造力测试中却与顶尖模型不相上下。
这启发研究团队基于 LiveIdeaBench 的头脑风暴轨迹,微调开发了一个专门面向科研创意生成的「点子王」模型(IdeaWhiz)。该模型继承了 QwQ-32B-Preview 的推理特性,并在化学、生物、气候和医学等领域展现出强大的创意能力。
例如,当要求模型针对「癌症」提出科研创意时,它能够通过细致的推理过程,提出将机器学习与多组学数据结合以开发个性化癌症疫苗的创新方案。这种将步步推理与创造性思维相结合的能力,正是AI辅助科研创新的重要突破。
该模型已在Hugging Face开源,研究者可以通过 Ollama 等工具轻松使用 ollama run 6cf/QwQ-32B-Preview-IdeaWhiz-v1 。「我们希望这个工作不仅能推动 AI 在科研创新方面的进步,也能为科研工作者提供一个实用的头脑风暴助手。」
论文链接:https://arxiv.org/abs/2412.17596
项目主页:https://liveideabench.com/
Liveideabench 数据集6cf/liveideabench · Datasets at Hugging Face
https://huggingface.co/datasets/6cf/liveideabench
模型卡:https://huggingface.co/6cf/QwQ-32B-Preview-IdeaWhiz-v1
Bartowski 量化版本bartowski/QwQ-32B-Preview-IdeaWhiz-v1-GGUF · Hugging Face
https://huggingface.co/bartowski/QwQ-32B-Preview-IdeaWhiz-v1-GGUF
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。