类GPT化学语言模型,9秒生成100种化合物,微软AI药物设计平台登Nature子刊
编辑 | KX
以ChatGPT为代表的生成式 AI 技术正在彻底改变药物研发领域。生成式药物设计能够从零开始创建全新分子或化合物,而无需依赖于现有的模板或分子框架。
然而,生成的分子的实用性往往有限,因为许多设计都集中在一组狭窄的药物相关特性,无法提高后续药物发现过程的成功率。
为了克服这些挑战,微软研究院科学智能中心、中国科学技术大学和全球健康药物研发中心(GHDDI)的研究团队合作开发了 AI 药物设计平台 TamGen,这是一种采用类似 GPT 的化学语言模型方法。
TamGen 通过基于 Transformer 自注意力机制的生成式 AI 模型,实现了针对致病靶蛋白的分子精准生成、优化以及合成与生物实验验证,开辟了创新药物发现的新路径。
研究证明 TamGen 生成的化合物具有更好的分子质量和活性。将 TamGen 集成到药物发现流程中,确定了 14 种对结核杆菌 ClpP 蛋白酶表现出显著抑制活性的化合物。其中,最有效的化合物显示出半数最大抑制浓度(IC50)为 1.9 μM。
GHDDI 中心主任丁胜表示:「TamGen 的初步成果标志着生成式药物设计领域的一项重要创新,为未来的 AI 药物研发提供了强有力的实用性和适用性证据。随着人工智能技术在药物发现领域的持续进步,TamGen 有望加速新药研发,帮助应对包括结核病在内的多种公共卫生挑战。」
相关研究以「TamGen: drug design with target-aware molecule generation through a chemical language model」为题,于 10 月 29 日发布在《Nature Communications》上。
论文链接:https://www.nature.com/articles/s41467-024-53632-4生成式药物设计面临的挑战设计对致病蛋白靶标具有高结合亲和力的化合物可以显著加快药物发现过程。基于靶标信息生成化合物的生成式 AI 方法不仅可以加快这一过程,还可以探索现有化合物库之外更大的化学空间。
然而,尽管 AI 生成了大量新型化合物,但现有方法在提供有效候选药物方面仍然面临挑战。
TamGem:类 GPT 的化学语言模型为了应对生成式药物设计面临的挑战,微软与 GHDDI 联合开发了 TamGen。
其创新之处在于,在类 GPT 生成模型的基础上加入了交叉注意力机制,并通过学习大量的已知和模拟的蛋白-配体结构数据,使得模型在生成新的化学分子时,能够同时考虑致病靶蛋白的信息。
这一改进使 TamGen 能够基于靶蛋白活性位点信息精准生成具备潜在相互作用的分子,进而增强分子生成的靶向性以及药物设计的合理性与精准度,再结合分子模拟、细胞活性 AI 模型与专家经验进一步虚拟筛选与优化,从而大幅提升发现候选药物的效率与成功率。
GHDDI 数据科学平台负责人郭晋疆博士表示:「传统的生成式 AI 设计方法更像是先造出无数把钥匙,再一把一把地试能否打开门。而 TamGen 则像是在比对锁眼,更精确地匹配钥匙。」
图示:TamGen 模型架构。(来源:论文)研究团队通过三个模块实现了 TamGen:(1) 化合物解码器,一种类似 GPT 的化学语言模型,也是 TamGen 的核心组件,为化学空间中的化合物生成奠定了基础;(2) 蛋白质编码器,一种基于 Transformer 的模型,用于编码靶标蛋白质的结合位点;(3) 用于化合物编码和细化的上下文编码器。
TamGen 生成药物设计高效且有效为了对 TamGen 的整体性能进行基准测试,研究人员将其方法与最近提出的五种方法进行了比较:liGAN、3D-AR、Pocket2Mol、ResGen 和 TargetDiff。
图示:TamGen 在化合物生成方面性能最佳。(来源:论文)结果显示,虽然每种方法在某些指标上都表现出优势,但 TamGen 始终名列前茅。例如,TamGen 在 6 个指标中的 5 个中排名第一或第二,并表现出最佳的整体性能。这一发现表明 TamGen 能够在生成过程中同时优化化合物的多个方面。
值得指出的是,对于具有高结合亲和力的化合物,TamGen 在 SAS 方面表现最佳,这些化合物可能对靶蛋白具有优异的生物活性。
图示:TamGen 在运行时间上明显优于其他方法。(来源:论文)与其他方法相比,TamGen 的效率也最高。研究使用一台 A6000 GPU 对所有方法的每个靶标生成 100 种化合物的时间进行了基准测试。其他方法需要数十分钟或数小时才能完成此任务,而 TamGen 平均仅需 9 秒即可完成此任务。这使得 TamGen 比 ResGen、TargetDiff、Pocket2Mol 和 3D-AR 分别快 85、154、213 和 394 倍。
总的来说,TamGen 在生成新化合物方面既有效又高效。
发现 14 种对结核病有效的化合物接下来,研究人员使用 TamGen 设计针对 ClpP 的小分子抑制剂。
结核病(TB)是由结核分枝杆菌 (Mtb) 引起的传染病。研究专注于酪蛋白水解蛋白酶P (ClpP),它是细菌蛋白质降解系统中必需的丝氨酸蛋白酶,也是抗生素开发的新兴靶点。
图示:结核病药物生成的设计-改进-测试流程图。(来源:论文)使用由 TamGen 驱动的设计-改进-测试流程来识别潜在的 ClpP 抑制剂。研究发现了 14 种对 Mtb ClpP 表现出良好效力的候选化合物,半数最大抑制浓度 (IC50) 范围为 1.88 μM 至 35.2 μM。
值得注意的是,TamGen 生成的化合物不仅丰富了进一步优化的候选池,而且还为命中扩展和构效关系 (SAR) 合成提供了有效的靶点。这些发现凸显了 TamGen 在靶标感知药物设计中的广泛适用性和巨大潜力。
未来展望下一步,TamGen 的研究方向将集中在整合更多三维生成方法的优势,比如采用蒙特卡洛树搜索(MCTS)或分子动力学模拟技术,进一步改善生成化合物与靶蛋白结合能力及其他重要药物性质,如稳定性、合成可能性以及 ADME/T 特性。
参考内容:https://mp.weixin.qq.com/s/ToKG6upzt3Gl-b29PNfPRg
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。