综述:药物发现中的机器学习
不知不觉,人工智能已经渐渐延伸到了各个领域,医药领域也不例外。
来自印度 B V Raju 理工学院的研究人员发表综述, 讨论了药物发现中的机器学习,归纳总结了应用于制药领域的各类机器学习技术,并指出当前该领域发展的难点,以及未来发展方向。
该综述以「Machine Learning in Drug Discovery: A Review」为题,于 2021 年 8 月 11 日发布在《Artificial Intelligence Review》杂志。
人工智能概念与许多领域密切相关,如模式识别、概率论、统计学、机器学习以及模糊模型、神经网络等众多程序,统称为「计算智能」。对于制药行业而言,机器学习方法的使用将彻底改变传统的药物发现过程。
图示:使用机器学习进行药物发现的各个领域。
人工智能已应用于药物设计的各种方面,如药物-蛋白质相互作用预测、药物疗效的发现、确保安全性生物标志物。
药物设计应用
药物设计技术依赖于基于不同 ML 算法开发的数据库。机器学习算法在药物发现过程中的精确训练、验证和应用,简化复杂的协议,已经取得了不少成果。大多数药物设计过程中都引入了 ML 技术,以减少时间成本和人工干预。
图示:蛋白质的初级、二级、第三和第四级结构突出与活性位点残留物。(来源:论文)
蛋白质与蛋白质相互作用的预测
蛋白质-蛋白质相互作用 (PPI) 是主要的生物学现象之一,身体(细胞)的基本单位通过它传输信号、离子、底物和能量产生成分。这些信号、离子、底物和能量产生成分可以改善身体所需的药理反应。另外,PPI 在疾病的发病机制中起着至关重要的作用。
近年来,基于 PPI 的药物发现计划在实验上产生了一种有希望的药理物质。然而,PPI 实验预测的时间和成本被认为是限速障碍。在这方面,不同的数据库托管了以 PPI 为框架的 Web 服务器,以加速药物化学研究。
图示:使用 AI 模型说明药物发现设计技术和主题。
Hit发现
药物再利用的特点是「为目前处于存在阶段的药物」寻找新的适应症,它减少了药物发现的时间和危险情况。DeepDTnet 算法被认为比 NetLapRLS 和 KBMF2K 方法以及朴素贝叶斯、SVM、KNN 和随机森林算法更具优势。
虚拟筛选是在药物发现过程中使用的一种 AI 策略,用于定位小分子以区分药物靶标的结合结构。
分子对接技术的高吞吐量虚拟筛选和评分
目标识别之后,通常使用虚拟筛选 (HTVS) 和分子对接技术, 以了解蛋白质/受体的活性位点。另一种基本方法,是基于配体的虚拟筛选(LBVS),该方法依赖于化学数据库的物理化学特性。
图示:分子对接取样和评分 fowchart 的基本概述。
命中领先
QSAR 分析用于先导优化过程,通过预测生物活性类似物从命中类似物中寻找潜在的先导化合物。主要用于数学概念,研究物理化学或结构对象和生物活动的定量映射。
图示:从与 ML 算法相关联的 Hit-to-lead 优化协议中获得的 Abl 激酶抑制剂。(来源:论文)
De novo 药物架构通过调整或平衡目标利益来推进独特的化学结构。使用 De novo 模型从头开始引入新分子。深度学习模型可以利用强大的知识和生成能力,引入具有适当属性的新结构。
图示:抗病毒化合物的 Smiles/SLN 符号。(来源:论文)
先导优化
先导优化的主要目的是通过最小的结构修改来消除现有活性类似物的副作用影响。机器学习可用于研究先导优化,如化学和物理特性、吸收、分布、代谢和排泄、毒性以及 ADME/T 。
用于药物发现电子资源中的 ML
图示:药物发现平台电子资源中的机器学习。(来源:论文)
泛检测干扰筛查中的 ML (PAINS) 可以根据要求从 PAINS 数据库访问泛检测信息。 从 Pubchem 库和筛选分析中编译出来的 Hit Dexter 2.0,可用于了解新设计化合物的生物学特性。
药物代谢物和代谢位点预测中的 ML 在进入临床实验之前,确定药物或新化学实体的代谢部位是非常必要的。 药物代谢的预测可以通过动物模型(临床前研究)来完成,这是一个限制效率的步骤,而且成本高昂。 利用机器学习模型可以解决这一问题,已经可以用于预测新陈代谢的工具有 ADMET预测器、FAME3、GLORY/GLORYx 等。
皮肤敏感参数预测中的 ML 皮肤敏感性的预测是评估新药/化合物安全性参数的基本标准之一。 在这方面,基于随机森林的 MACCS(RF_MACCS)和基于支持向量机(SVM)的 PaDEL(SVM_PaDEL)算法等 AI 模型已经训练了大约 1400 个与局部淋巴结检测(LLNA)信息相关的配体。
天然产品标识中的 ML 用 265,000 个天然产物分离物和经 MCC 验证的合成文库训练的 ML,被用作基本预测模型 NP Scout 在线服务器,将揭示新发现的药物类似物的可能身份。 NP Scout 在查询分子来源预测中的应用,可以提供有关其天然产物来源的信息,并可能成为基于天然产物的药物发现过程的重要组成。
药物发现问题
目标验证
由于数据驱动的目标识别实验的数量倍增,因此将 ML 方法用于目标识别是绝佳选择。在目标识别方面,确认疾病和目标之间的因果关系是第一步。通过使用 ML 方法,可以对目标的已知属性、因果关系、驱动目标进行预测。ML 技术可以从不同角度应用于目标识别领域。
预测生物标志物
使用 ML 方法,通过区分药物以及了解合理患者的药物机制,从而发现生物标志物,进而提高临床试验性能。在临床试验的最后阶段,往往要消耗大量的时间和成本。为了战胜这一问题,有必要在临床试验的早期阶段应用、构建和验证预测模型。使用 ML 算法可预测临床前数据分类中的转化生物标志物。
数字病理学
数字病理学基础理论的快速改进,可以更合理、更精确、高通量的发现新的生物标志物,从而缩短药物开发时间,患者也可以更快获得治疗。在应用深度学习模型之前,许多与图像分析相关的算法促使计算机学者与病理学家合作。为了对组织层进行分类,许多计算机科学家需要在计算机中手工制作图形特征。多尺度 CNN 模型则非常适用于数字病理学工作。
挑战
药物发现中存在许多挑战,大多数挑战可以通过使用机器学习技术来解决。
在训练期间有几个参数和结构会导致 ML 策略产生问题。特别是在训练期间数据不足的情况下,特定的算法不能满足精度和局部最优。
透明度问题是药物发现的另一个挑战。在不同分类模型中的决策规则是不清楚的。在药物开发中,机器学习模型需要理解多种机制来解释结果,并且需要多个组合特征来提高对可解释性的信任度 。
可以从许多参考文献中访问集成数据,尤其是「组学」区域。
同质数据会产生集成挑战。
在制药公司,研究从巨大的分子延伸到个体,并且通常依赖于异构数据的整合;这些数据需要在不同的背景和规模下维持其自身,这本书就是一项挑战。
结论和未来方向
结论
人工智能技术正广泛应用于医药行业。在医学科学中,人工智能技术使计算机辅助药物开发领域向前迈进了一步。尽管如此,一些问题仍然存在,即
深度学习方法的性能可以直接影响数据挖掘的创新,因为多个深度神经网络在大量数据上得到有效训练。主要目的是解决迁移学习的自动问题。
「黑盒」模型在深度学习概念中变得混乱。Local Interpretable Model-Explanations(LIME)是反事实调查的一个例子。LIME 被用来解锁黑盒模型。在这里,必须通过深度学习模型来解释受限数据。然而,通过深度学习技术揭示数据仅在初始阶段发挥作用。
许多参数在神经网络的训练期间进行了调整,但一些理论和实践框架无法优化这些模型。
未来方向
网络创新与医学科学相结合,以提高决策和深度学习算法的预测能力,包括生物标志物、疗法的副作用、治疗效果。人工智能需要协调化学信息、组学数据和医学数据等理论结果,从而实现创新。未来,期待 AI 技术覆盖医药科学的方方面面。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。