一家人工智能公司,攻克了50年未解的医学难题
总部位于伦敦的人工智能公司DeepMind在去年年底攻克了一个长达50年的科学难题,通过使用人工智能软件,仅根据蛋白质的遗传密码即可预测其折叠形状,该公司于近日公布了具体细节。
蛋白质的形状很重要,因为它有助于判断蛋白质的功能。大多数药物通过与蛋白质结构中具有某一特定形状的“口袋”结合起作用。因此,弄清楚蛋白质的确切形状可能是药物开发过程中的关键一步,DeepMind的突破或有助于加快药物的研发过程。
蛋白质的形状通常使用某种成像方法确定。X射线晶体学是其中最精确的方法之一,通过将蛋白质溶液结晶,然后被高能X射线轰击,对由此产生的衍射模式进行分析,从而构建出蛋白质的图像。但这种方法昂贵、耗时,有时让人倍感焦虑。近年来,也出现了其他方法,例如在极低的温度下急速冷冻蛋白质,再通过电子显微镜进行观察。
但早在1972年,诺贝尔奖得主、化学家克里斯蒂安•安芬森就提出,仅仅通过蛋白质的DNA序列,就可以准确预测其折叠成的确切形状。然而,凭借当时的计算方法、基因测序技术、以及计算能力(这点同样十分重要),还无法解决这种复杂的相关性问题。
1994年,开始每两年举办一次名为蛋白质结构关键评估(Critical Assessment of Protein Structure)的软件竞赛,比赛内容是通过基因序列来预测蛋白质结构。2018年,谷歌(Google)母公司Alphabet旗下的DeepMind公司首次使用深度学习系统参加了比赛。深度学习系统是一种使用神经网络的人工智能,一种以人脑连接方式为基本框架的软件。DeepMind的系统名为AlphaFold,轻松击败了其他所有团队,虽然仍远未达到X射线晶体学的精度,但已经在预测精度上取得了巨大飞跃。
2020年,DeepMind携重新设计的深度学习系统AlphaFold 2再次入围。这一次,DeepMind能够对大多数蛋白质类型做出十分精确的预测,最终不仅赢得了比赛,蛋白质结构关键评估竞赛的组织者还宣布,DeepMind基本上解决了安芬森最初提出的蛋白质结构预测问题。
7月16日,在著名科学期刊《自然》(Nature)上发表的一篇同行评议文章中,DeepMind具体解释了其人工智能软件为何可以有如此出色的表现。它还开放了AlphaFold 2的代码供其他研究人员使用。
该公司此前曾经表示,可能会开发一个界面,让学术研究人员甚至制药公司能够通过 AlphaFold 2来查询蛋白质的结构预测,但该公司尚未宣布任何类似计划。Deepmind之外的科学家即使拥有源代码,却仍然需要自己训练神经网络,才可以得到有意义的蛋白质结构预测结果。
“我们承诺,将分享我们的方法,并为科学界提供范围广泛的免费使用途径。”DeepMind的联合创始人及首席执行官德米斯•哈萨比斯在一份声明中说。“今天,我们向承诺迈出了第一步。”哈萨比斯表示,关于如何让更多人获取AlphaFold2的预测,公司“很快”会通报更多进展。
在《自然》杂志的论文里,DeepMind写道,AlphaFold 2已经帮助使用X射线晶体学和蛋白质电子显微镜图像方式的研究人员完善了他们对数据内容的理解。该系统还能够准确预测和新冠病毒有关的一些关键蛋白质的形状。
该论文显示,AlphaFold 2使用的神经网络设计很复杂。该网络包含两个大模块,配合完成蛋白质结构的预测。
第一个模块被DeepMind称为“Evoformer”,负责读取蛋白质的原始基因序列,以及该DNA密码的哪些片段与其他结构已知的蛋白质中的片段共同进化的数据。Evoformer将这些数据以图表的方式呈现,图表以氨基酸对作为节点,用边缘表示这些氨基酸对在蛋白质中彼此之间的接近程度。Evoformer有48个神经网络“块”,每个“块”可能由多层网络组成。
每个神经块使用各种先进的机器学习技术对这张图表进行一系列处理,再将其预测传递给下一个神经块做进一步修订。通过这种方式,Evoformer逐渐完成了对蛋白质主干形状的预测。该系统使用的一些技术与最近自然语言处理取得的突破中使用的技术类似。
随后,Evoformer将其预测传递给第二个模块,即结构预测模块。该模块由另外8个神经网络块组成,通过一系列几何变换,进一步细化蛋白质可能的形状。特别的是,这个模块构建了蛋白质可能的“侧链”的图像,在蛋白质的抽象3D图像中,这些侧链看起来像是从蛋白质主干分支出来的扭曲的带状花体。
DeepMind在其论文中指出,尽管AlphaFold 2对大多数已知蛋白质结构的精确度达到了不足一个原子宽度的距离,但在一些领域内却仍然存在瓶颈。对于已知在蛋白质间共同进化的基因序列少于30个的蛋白质,AlphaFold的准确性大幅下降。DeepMind称,这种共同进化信息“对于在网络早期阶段大致找到正确的结构是必要的。”
研究人员还表示,该系统对某些蛋白质的预测不佳,因为它们的形状很大程度上是由侧链之间的相互作用决定的,而不是沿着主干,或者包括两条大相径庭的氨基酸链相互交织。但科学家们还写道,“我们预计”运用AlphaFold的理念,未来将能够准确预测这种复杂的蛋白质结合,或许在暗示DeepMind可能已经在这个问题上取得了幕后进展。(财富中文网)
译者:Agatha
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。