首页 > AI资讯 > 最新资讯 > 预测精度媲美实验!哥大团队开发可解释细胞「基础」模型,揭示213种人类细胞调控语法

预测精度媲美实验!哥大团队开发可解释细胞「基础」模型,揭示213种人类细胞调控语法

新火种    2025-01-22

图片

编辑 | 萝卜皮

转录调控涉及调控序列和蛋白质之间的复杂相互作用,指导所有生物过程。转录计算模型缺乏通用性,无法准确推断未知的细胞类型和条件。

哥伦比亚大学的研究人员介绍了 GET(general expression transformer),这是一种可解释的基础模型,旨在揭示 213 种人类胎儿和成人细胞类型的调控语法。

GET 完全依赖染色质可及性数据和序列信息,即使在以前未见过的细胞类型中,也能达到实验级的准确度,预测基因表达。

GET 还在新的测序平台和检测中表现出显著的适应性,能够对广泛的细胞类型和条件进行调控推断,并揭示通用和细胞类型特异性的转录因子相互作用网络。

该研究以「A foundation model of transcription across human cell types」为题,于 2025 年 1 月 8 日发布在《Nature》。

图片

「预测性可推广的计算模型可以快速准确地揭示生物过程。这些方法可以有效地进行大规模计算实验,促进和指导传统的实验方法。」系统生物学教授、论文的通讯作者 Raul Rabadan 说。

传统的生物学研究方法擅长揭示细胞如何工作或如何对干扰作出反应。但它们无法预测细胞如何工作或细胞如何对变化作出反应,例如致癌突变。

「能够准确预测细胞活动将改变我们对基本生物过程的理解。」Rabadan 说,「它将使生物学从一门描述看似随机的过程的科学转变为一门能够预测控制细胞行为的根本系统的科学。」

「以前的模型都是针对特定细胞类型的数据进行训练的,通常是癌细胞系或其他与正常细胞几乎没有相似之处的细胞。」Rabadan 说。

Rabadan 实验室的研究生 Xi Fu 决定采取不同的方法,利用从正常人体组织中获得的数百万个细胞的基因表达数据来训练机器学习模型。输入包括基因组序列和显示基因组哪些部分可访问和表达的数据。

基于这些想法,他们研发了 GET,这是一种最先进的基础模型,专门设计用于解释控制多种人类细胞类型的转录调控机制。通过整合染色质可及性数据和基因组序列信息,GET 实现了与遗漏细胞类型中的实验重复相当的预测精度水平。

总体方法与ChatGPT等流行的「基础」模型的工作方式类似,使用一组训练数据来识别底层规则,即语言的语法,然后将这些推断出的规则应用于新情况。

「这里完全相同的事情:我们在许多不同的细胞状态下学习语法,然后我们进入一种特定的状态 - 它可能是患病的[细胞类型],也可能是正常的细胞类型 - 我们可以尝试看看我们如何根据这些信息预测模式。」Rabadan 说。

图片

图示:GET 模型及其应用。(来源:论文)

GET 从 213 种人类胎儿和成人细胞类型的染色质可及性数据中学习转录调控语法,并准确预测可见和不可见细胞类型中的基因表达。

此外,GET 提供报告基因检测读数的零样本预测,在识别顺式调控元件方面优于以前最先进的模型,并识别以前未知和已知的胎儿血红蛋白上游调节剂。

图片

图示:GET 通知 TF–TF 交互发现。(来源:论文)

GET 还提供了丰富的细胞类型特异性调控见解:利用 GET 预测的共调节信息,研究人员精确定位了潜在的基序-基序相互作用,并构建了人类 TF 和辅激活因子的结构相互作用目录。

目录链接:https://huggingface.co/spaces/get-foundation/getdemo

利用此目录,研究人员确定了涉及 PAX5 和核受体家族 TF 的淋巴细胞特异性 TF-TF 相互作用,并强调了白血病相关生殖系变异的可能疾病驱动机制,该机制影响 PAX5 无序区域与核受体域的结合。

当然 GET 还存在一些局限性。GET 目前的局限性包括主要依赖于染色质可及性数据、有界分辨率来区分具有非常相似基序的 TF 同源物,以及仅对粗粒度细胞状态和区域级序列信息进行训练。

GET 未来的增强可能涉及整合多层生物信息,包括但不限于核苷酸水平的调节足迹、三维染色质结构以及调节表达谱或单细胞嵌入。

GET 的未来迭代可以整合更多患病、受干扰或经过处理的细胞状态和更广泛的检测,包括直接测量 TF 结合、组蛋白修饰和 PolII 活性的检测,以提供对监管格局的更全面的了解。

图片

图示:GET 识别受癌症相关种系变异影响的细胞类型特异性 TF-TF 相互作用。(来源:论文)

多路复用核苷酸水平扰动或随机化将有助于校准 GET,以精确预测非编码遗传变异的功能影响。确定非编码变异在调节基因表达和疾病易感性方面的影响仍然是一个重要的探索领域。

将基因组变异整合到 GET 框架中将使研究人员能够更准确地预测它们对基因调控的影响,从而深入了解复杂性状和疾病的遗传基础。

此外,基因调控动力学反映了转录活性在发育线索或环境刺激下的时间变化,这是可以整合到模型中的另一个复杂性维度。

借助团队高效的微调框架,使用预训练和微调的 GET 进行比较解释分析可用于识别驱动细胞状态变化的重要调节区域或基序。

基于 GET 构建的生成模型可以开发并用于设计兆碱基级增强子阵列,并设计细胞类型特异性 TF 或其相互作用抑制剂,以进行有针对性的治疗干预。

总的来说,GET 代表了细胞类型特异性转录建模的一种先驱方法,在调节元件、上游调节剂和 TF 相互作用的识别方面具有广泛的适用性。

论文链接:https://www.nature.com/articles/s41586-024-08391-z

相关报道:https://phys.org/news/2025-01-biologists-ai-cells.html

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。