探索GenAI在生命科学领域的价值:从预测到创造
人工智能深度赋能生命科学与生物医药数字化、智能化转型,在解决人类生命健康问题方面取得了众多令人瞩目的研究成果。而近期以ChatGPT为代表的生成式人工智能(Generative Artificial Intelligence,GenAI)更进一步扩展了数据驱动药物研发和医疗保健模式的能力边界。高德纳咨询公司(Gartner)预测,截至2025年使用GenAI技术系统研发新药比例将从现在的零上升到30%以上。然而在GenAI释放生命健康产业潜能的期待中,还需警惕生物信息安全问题、生物武器威胁等带来的诸多风险和挑战。
一、GenAI赋能生命科学研究和技术创新
随着人工智能技术持续的迭代升级,GenAI掀起了以巨量数据、大模型架构为技术特征和驱动力的一场生产力方式的变革。ChatGPT、DALL·E、Stable Diffusion等应用以丰富多元、可交互的方式率先落地应用,生命科学领域也持续蓄能并尝试探索。相较前一阶段人工智能的预测作用,GenAI以大幅提升的学习能力和生成能力引领生命科学和生物医药领域迈入创造阶段,为丰富的下游产业任务提供有力支撑。
(一)GenAI为生命科学基础研究提供强大助力
人工智能预测蛋白质结构使自由控制细胞功能和生命活动成为可能,并且其预测性能在精度、范围、耗时方面不断提升。2023年10月,美国谷歌DeepMind公司与欧洲生物信息研究所(EMBL-EBI)推出了重大升级版本的AlphaFold-latest,在预测地球上所有已知蛋白质的能力基础之上进一步将准确率提升10%,且预测精度可达原子级。相较于AlphaFold使用多序列匹配算法实现原子分辨率结构预测的性能突破,美国Meta等科研队伍则利用语言模型内部表征的方式,实现了高分辨率预测的数量级加速,其开发出的最大的蛋白质语言模型ESM-2仅用2周时间就预测了超过6.17亿个蛋白质结构。这两种技术途径都充分展示了人工智能在提升预测蛋白质结构性能和创新性方面的巨大潜力。
预测结构为解码蛋白质的三维奥秘提供了更高效手段,而GenAI为直接创造蛋白质甚至是未知或不存在的功能蛋白提供了一种端到端的便捷方式,扩增出近乎无限的、广阔的蛋白质序列和结构空间,使颠覆生命科学和生物医药研究范式的趋势更加显著。目前,GenAI在蛋白质设计、生物医药领域的应用主要有Transformer架构和扩散性模型两大构建思路。前者的代表是美国初创生物医药公司Profuluent在2023年1月开发的蛋白质语言模型Progen。该模型基于Transformer架构的12亿参数神经网络,提供了一种可根据所需属性生成特定蛋白质的方法,从头合成了自然界中不存在的人工酶,引起了生命科学领域的广泛关注。而后者构建思路则是采取了图像生成领域常用的扩散性模型的技术路径,更加擅长基于文本生成图像来描述蛋白质序列和结构之间的关系,并以此快速生成蛋白质的骨架结构。例如2022年10月美国斯坦福大学和微软研究院经受体内蛋白质折叠过程的启发,引入了一个折叠扩散(folding diffusion,FoldingDiff)模型,通过镜像蛋白质天然折叠过程实现蛋白质主链结构的设计,解决了直接生成结构复杂多样的蛋白质的难题。
(二)GenAI引发医药研发的技术变革
在药物研发方面,GenAI可以基于生物学机制、疾病临床数据、药学用药数据建立药物开发辅助模型。一方面可减少研发中的人力物力和时间投入,降低药物研发的时间和经济成本,另一方面可辅助预测新药的有效性和安全性,提升药物研发的成功率。例如美国英矽智能(Insilico Medicine)在2022年开发出人工智能药物发现平台Pharma.AI,仅在18个月内花费270万美元就研发出全球首个由人工智能发现的具有全新靶点和分子结构的候选药物ISM001-055,相较于新药研发平均耗时14年花费19.8亿美元的高昂成本,GenAI极大减少了药物研发成本和时间。
二、探索GenAI在生命科学领域的创新应用场景
生命科学研究链条长、产业布局复杂,GenAI整合了生物学、化学、计算科学、药理学和疾病治疗形成综合路径,为小分子和大分子设计、优化和合成提供高效工具。当前GenAI的应用探索尚处早期研发阶段,平台层面初露头角,真正应用程序还处在萌芽阶段,且在各技术环节的开发程度和可应用程度不尽相同,但整体来说GenAI的产业应用潜力充足。
GenAI为药物发现和抗体构建提供强大的搜索和优化工具。在研发难度最大、研发成本最高的早期分子发现阶段,GenAI不仅能够建立氨基酸序列到蛋白质结构间的连接,更重要的是可根据某种疾病或某个靶点在广阔的蛋白空间找到能够精准靶向、有效执行功能并完成属性调优的新分子,以此作为最有前途的候选药物进行后续研发,从而避免大量资源密集型的试错工作,提升成功率。例如加拿大多伦多大学和美国斯坦福大学根据AlphaFold预测的蛋白结构,利用AI驱动的端到端药物发现引擎PandaOmics生物计算平台和Chemistry42生成化学平台选定了7个分子进行合成和生物学测试,仅用30天就发现了第一个药品,成为首个成功将AlphaFold应用于早期药物命中发现识别过程的案例。而后美国华盛顿大学开发出基于深度学习的蛋白质序列设计策略ProteinMPNN,仅通过蛋白的三维结构信息即可从头设计出具有高度稳定性、特异性和亲和力的结合蛋白,扩展了不可成药靶点,开创了蛋白药物开发的全新方式。
GenAI为脑图像计算和脑网络计算开辟新途径。GenAI通过整合神经影像学,在提取时空脑特征和重建脑网络拓扑连通性方面获得诸多重要突破,为重建人脑活动的视觉体验和理解大脑提供了具有潜力的方式。2023年3月,日本大阪大学前沿生物科学学院基于扩散模型重建将人脑活动进行高分辨率图像的重建(技术思路如下图1)。4月,美国伊利诺伊理工学院提出一种结合了GenAI、非侵入性脑机接口、思维类型软件的梦境记录新方法,能够在快速眼动睡眠期间产生用于思维输入的信号,是脑网络计算的理解和应用重要的一步。
数据来源:Takagi Y, Nishimoto S. 基于人脑活动的潜在扩散模型进行高分辨率图像重建[C]//IEEE/CVF 计算机视觉和模式识别会议论文集.2023: 14453-14463.
GenAI为复杂临床诊断和专家系统提供新“智慧动能”。GenAI赋能诊疗全过程。首先在辅助诊断方面,GenAI可为临床诊疗决策提供有价值的参考,并改善医学图像质量、替代录入电子病历等诊断流程,完成对医生的智力、精力的解放,实现医生群体业务能力的提升。经美国哈佛医学院和日本独协大学的先后评估,生成式训练模型GPT-3和GPT-4在一系列具有挑战性的临床案例中的诊断,结论发现诊断总准确性在90%以上。其次在康复治疗方面,GenAI可以为失声者合成语言音频,为残疾者合成肢体投影,为心理疾病患者合成无攻击感的医护陪伴等,通过用人性化的方式来抚慰患者,从而舒缓其情绪,加速其康复。
GenAI可在药物再定位方面发挥积极作用。药物再定位是指发现已有药物在其他疾病领域的新用途。通过分析临床数据、基因组学数据等信息,GenAI可以识别药物在其他疾病治疗中的潜在作用,从而为药物的临床再定位提供支持。这种方法可以节省药物研发的时间和成本,加速药物从实验室到临床的转化。如以色列IBM研究院和梯瓦(Teva)制药的科研人员利用GenAI算法模拟临床试验,发现了安眠药唑吡坦还可以作为治疗帕金森痴呆症的一种新药物。
三、GenAI在生命科学领域面临的风险与问题
随着GenAI不断释放生命科学研究潜能,生物安全和数据隐私问题也面临着一定的风险。
一是GenAI为生物恐怖主义提供简单便捷的实现手段。新技术无需从来源提取毒素,就可在细菌或细胞中培养出生物武器,或是在此基础上将毒素与抗体结合制备出更具威胁的“融合毒素”,是生物武器的威胁的“倍增器”。美国罗切斯特大学的化学工程教授安德鲁・怀特(Andrew White)进行了GPT-4模型渗透测试,在提供了化学武器相关的科学论文和化学品制造商名录后,得到了GPT-4推荐的可作为化学武器的神经毒剂和制造点。
二是生成数据的可信度与GenAI的不可解释性之间的矛盾增加了数据安全风险。GPT等大语言模型存在的信息错误,或利用虚假信息进行误导和诽谤的“幻觉”问题,以及GenAI不透明的“黑箱”理论都在一定程度上影响了药物数据的可信度和可用性,或将导致后续研发决策出现偏差,无法确保药物的安全性和有效性。同时其有限的可解释性也使得修正生成内容的错误和偏差变得困难。
三是AI药物研发过程中存在数据隐私问题。药物研发涉及大量的患者数据和临床试验数据,其中包含患者的个人身份信息和健康信息,涉及隐私和安全的问题。如果GenAI模型在数据处理和存储过程中存在漏洞,可能会导致患者数据泄露、滥用或被不当使用,从而引发潜在的法律诉讼和声誉损害。
数据来源:麦肯锡官网
四是数据来源和处理是掣制GenAI在生命科学和医药领域研究最大痛点。一方面,目前结构生物学数据的质量和数量远远无法满足生成式模型的训练需求;另一方面,蛋白质序列的数据标签处理成本十分高昂,或对研发工作带来较大的资金压力影响开发进度。
结语
GenAI为生命科学新业态和新模式注入创新动能,未来也将持续向更经济、更高效、更快速的阶段发展,包括运行计算成本的下降,以及越来越多大模型的开源等。生命科学和生物医药领域前景令人期待,但要真正发挥从研发到落地的驱动作用,还需要政府和产业联动搭建产业生态,坚持监管规范和促进发展两手并重,加强与行业特异性场景深度融合,才能推进AI+生命科学产业的安全稳健发展。
参考文献:
Madani A, Krause B, Greene E R, et al. Large language models generate functional protein sequences across diverse families[J]. Nature Biotechnology, 2023: 1-8.
Wu K E, Yang K K, Berg R, et al. Protein structure generation via folding diffusion[J]. arXiv preprint arXiv:2209.15611, 2022.
Perron Q, Mirguet O, Tajmouati H, et al. Deep generative models for ligand‐based de novo design applied to multi‐parametric optimization[J]. Journal of Computational Chemistry, 2022, 43(10): 692-703.
Ren F, Ding X, Zheng M, et al. AlphaFold Accelerates Artificial Intelligence Powered Drug Discovery: Efficient Discovery of a Novel Cyclin-dependent Kinase 20 (CDK20) Small Molecule Inhibitor[J]. arXiv preprint arXiv:2201.09647, 2022
Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning–based protein sequence design using ProteinMPNN[J]. Science, 2022, 378(6615): 49-56.
Nair R, Mohan D D, Setlur S, et al. Generative models for age, race/ethnicity, and disease state dependence of physiological determinants of drug dosing[J]. Journal of Pharmacokinetics and Pharmacodynamics, 2022: 1-12.
Hirosawa T, Harada Y, Yokose M, et al. Diagnostic accuracy of differential-diagnosis lists generated by generative pretrained transformer 3 chatbot for clinical Vignettes with common chief complaints: A pilot study[J]. International Journal of Environmental Research and Public Health, 2023, 20(4): 3378.
作者简介
戴吉 国务院发展研究中心国际技术经济研究所研究三室
研究方向:生物领域形势跟踪及关键核心技术、前沿技术研究
编辑丨郑实
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。