LLM学习原子「结构语言」,生成未知化合物的晶体结构,登Nature子刊
编辑 | 萝卜皮
生成合理的晶体结构通常是预测材料化学成分及其性质的第一步,但当前大多数预测方法计算成本高,制约了创新进程。通过使用优质生成的候选结构来预测晶体结构,可以突破这一瓶颈。
在最新的研究中,英国雷丁大学(University of Reading)的研究人员介绍了 CrystaLLM,这是一种基于晶体学信息文件 (CIF) 格式的自回归大型语言建模 (LLM) 的多功能晶体结构生成方法。
CrystaLLM 经过数百万个 CIF 文件的训练,专注于通过文本对晶体结构进行建模,它可以为训练中未涉及的各种无机化合物生成合理的晶体结构。
这种方法挑战了传统的晶体表示,并展示了 LLM 学习有效晶体化学模型的潜力,这将加速材料科学的发现和创新。
该研究以「Crystal structure generation with autoregressive large language modeling」为题,于 2024 年 12 月 6 日发布在《Nature Communications》。
在材料科学的计算机辅助发现过程中,晶体结构预测(CSP)方法常用于探索化学系统中的新材料。这类方法旨在通过特定的物理条件推导出给定化学成分的基态晶体结构。
CSP 通常依赖于高计算开销的从头计算技术,其中通过生成候选结构来优化搜索过程。随着机器学习和数据科学技术的进步,生成模型,如自动编码器和生成对抗网络,已被应用于晶体结构的生成。
虽然大语言模型(LLM)在自然语言处理和化学成分生成中取得了显著成果,但是训练 LLM 来生成晶体结构的文本表示仍然是一个相对较新的探索领域。
CrystaLLM
雷丁大学的研究团队报告了专门为晶体生成而设计的 LLM —— CrystaLLM 。该模型专门针对无机晶体结构的文本表示进行训练,特别是晶体学信息文件 (CIF) 格式,而不是仅仅依赖于自然语言语料库或化学成分。
Luis M. Antunes 在雷丁大学攻读博士学位期间主导了这项研究,他说:「预测晶体结构就像解决一个复杂的多维拼图,而拼图碎片是隐藏的。预测晶体结构需要大量的计算能力来测试无数种可能的原子排列。」
这种方法基于两个猜想:
首先,符号序列(即标记)是许多预测任务(包括涉及化学结构的任务)的适当表示方式。其次,LLM 不仅学习标记的条件概率分布,还可能通过自回归预训练学习一个有效的世界模型,即目标现象的因果过程。
近期的研究表明,经过棋盘游戏训练的 LLM 能够追踪棋盘状态并表示领域特定的抽象概念。由此可推测,经过训练的模型也许能学习晶体结构中隐含的化学性质,并借鉴原子世界的模型生成未知结构。
CrystaLLM 是一个基于 Transformer 的 CIF 文件格式的解码器专用语言模型,在数百万个 CIF 文件的语料库上进行自回归训练。该模型不是在从 CIF 文件得出的结构表示上进行训练,而是直接在 CIF 文件的标准化和标记化文本内容上进行训练。
图示:CIF 文件的大型语言建模。(来源:论文)
在训练期间,模型会从 CIF 文件语料库中获取一系列标记,并负责预测每个给定标记后面的标记。模型训练完成后,便可用它来生成新的 CIF 文件,条件是某些起始标记序列。生成 CIF 文件涉及从模型中反复采样标记,并对累积的生成内容进行调节,直到达到终止条件。
经测试,CrystaLLM 成功生成了逼真的晶体结构,甚至对于以前从未见过的材料也是如此。
目前的晶体结构生成方法通常依赖预定义模板,在空间群约束下通过程序化或机器学习辅助的原子替换和晶胞调整来生成结构,并通过调整替换概率和范围来提高结构多样性。与此不同,CrystaLLM 通过自回归训练吸收隐式模板,自动选择适合给定组合物的模板。
图示:各种无机化合物的生成结构。(来源:论文)
此外,该模型还能自动调整晶胞参数,以适应晶胞中的原子,并根据训练过程中未显式遇到的模板生成新结构。与最近报道的基于扩散的晶体生成方法(如 CDVAE 和 DiffCSP)相比,CrystaLLM 不仅在多个方面优于现有基准,还在灵活性(如对称性输入)和微调潜力方面展现出额外优势。
「CrystaLLM 通过研究数百万种已知的晶体结构来理解模式并预测新的模式,从而取得了突破,就像一个专业的解谜者,他能识别出获胜的模式,而不是尝试每一个可能的举动。」Antunes 说。
图示:无条件生成的新结构。(来源:论文)局限性
目前该方法仍有几个局限性。
首先,数据集中的任何结构都没有位点占有无序性(分数位点占有率)。因此,CrystaLLM 无法生成无序结构,并且可能无法成功生成暗示无序结构的晶胞组成和空间群组合的结构。
另一个限制是数据集的 CIF 文件并非全部使用同一级别的理论创建。训练集来自使用不同设置、函数等的 DFT 源的组合,在某些情况下,这可能会使模型难以学习细胞组成和详细结构之间的一致关系。
未来工作
尽管如此,研究人员表示,他们相信 CrystaLLM 将成为晶体结构生成的有用工具,晶体结构生成正迅速成为大规模材料发现和材料信息学的关键步骤。该团队计划探索微调模型以用于物理性质预测任务,例如预测晶格热导率,因为实验数据相对稀缺。
该模型的架构使其能够针对基于成分或基于结构的预测任务进行微调。这意味着 CrystaLLM 可能成为通用材料信息学模型的基础,该模型可用于生成任务,并针对需要成分或结构的属性预测任务进行微调。
如果该模型能够将其所学到的有关原子世界的知识转移到这些各种预测问题中,那么它可能被证明是一种与材料化学的许多方面相关的相当灵活的工具。
论文链接:https://www.nature.com/articles/s41467-024-54639-7
相关内容:https://www.eurekalert.org/news-releases/1067087- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。