AI模型开启蛋白质预测新时代DeepMind、Meta竞速求解“生命密码”
《科创板日报》9月20日讯(编辑 宋子乔) AI技术正成为医疗领域强大的辅助工具,科技巨头从未忽视这一点,其中DeepMind、Meta不断深耕,并在同日发布了蛋白质折叠相关的最新进展、计划——
当地时间9月19日,谷歌旗下的AI公司DeepMind发布了AI模型AlphaMissense,该模型通过利用蛋白质序列数据库和变异结构背景,可以识别致病的错义突变(错义突变是可能破坏人类蛋白质功能的基因突变)和未知致病基因,且可预测的范围比人类专家提升近千倍。目前,AlphaMissense的全部预测结果被免费提供给科研界,模型代码已经开源发布。
可以说,AlphaMissense对于理解遗传变异与疾病关系,开发针对性的药物治疗等都具有重要意义,展示了AI在医学领域,特别是在遗传学中的巨大潜力。
同一天,Meta也宣布了加码蛋白质折叠领域的计划。其CEO扎克伯格发布博客称,旗下慈善项目计划构建AI GPU集群,系统将配备1000多块GPU,并且是用顶级的H100。新的算力集群可以让研究人员使用生成式AI对健康和患病的细胞进行建模、预测细胞变化。随着时间的推移,这可以帮助他们开发出治疗疾病的新方法。
马克•扎克伯格和妻子普莉西拉•陈的基金会正在资助建设该算力集群。相关AI模型将在数据集上进行训练,这些数据集包含最大的标准化单细胞数据集的语料库、由旧金山Chan Zuckerberg Biohub建立的蛋白质位置和相互作用图集OpenCell和细胞图集Tabula Sapiens,以及一些大型成像数据集以及公开可用的数据集。
▌AI模型助力蛋白质预测 竞争趋于白热化
我们的生命离不开蛋白质。蛋白质是一切生命活动的基础物质,它是运输氧气的载体,是帮助抵御病毒的抗体,也是消化食物的酶。蛋白质之所以能够承担多种多样的功能,很大程度上是因为它们具有丰富而复杂的空间结构,这种结构的变化便被称为“蛋白质折叠”。
从生命科学的角度看,弄清楚蛋白质折叠方式并实现预测,相当于掌握了“生命密码”——医学人员可以提升遗传疾病诊断的效率和精度,推动个性化医疗的发展,对于新药开发也具有重要意义,甚至可以创造出自然界中原本不存在的蛋白质。
但从实践角度看,如果想要通过计算氨基酸分子间的相互作用来预测它们如何折叠,那么要穷尽所有可能的蛋白质构型,需要的时间将比整个宇宙年龄还要长。
当AI进入这个领域后,事情有了转机,基于大量蛋白质的序列和结构数据和强大算力,AI模型从中找寻氨基酸分子之间的相互作用、蛋白质片段之间的演化关系,预测蛋白质折叠的准确性很快获得提升。
AlphaMissense由蛋白质预测模型AlphaFold微调而来,后者同样由DeepMind发布,成功预测了来自100万个物种的约2亿种蛋白质结构,几乎涵盖了地球上所有已知生物。DeepMind于2022年7月开源发布了AlphaFold 2数据库,这使得研究人员确定蛋白质3D结构的过程变得和在浏览器搜索中输入一样简单。
Meta曾于2022年11月推出150亿参数的蛋白质预测模型EMSFold,抛开准确性不谈,在预测结构方面,EMSFold比AlphaFold快60倍,被视作AlphaFold的强有力“竞品”。
另外,清华大学智能产业研究院(AIR)研发的系统化蛋白质结构预测解决方案AIRFold,在蛋白质结构预测竞赛CAMEO上连续四周夺冠。
不过目前,规模化且强大的算力基础设施对于许多组织(尤其是学术研究机构)来说成本过高。
在蛋白质折叠领域,就连Meta也曾放慢步伐。8月份有消息称,Meta已裁掉了ESMFold团队,这表明该公司正在放弃纯科学项目,转而开发更容易商业变现的AI产品。
如今Meta重拾相关研究,与DeepMind的竞争或将更加白热化。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。