分类性能提高10%，港中大利用大型蛋白质语言模型发现未知信号肽

首页 > AI资讯 > 最新资讯 > 分类性能提高10%，港中大利用大型蛋白质语言模型发现未知信号肽

分类性能提高10%，港中大利用大型蛋白质语言模型发现未知信号肽

新火种 2023-12-20

编辑 | 萝卜皮

信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的预测 SP 的计算工具忽视了极端的数据不平衡问题，而依赖于蛋白质的额外组信息。

香港中文大学的研究人员开发了无偏生物体不可知信号肽网络（Unbiased Organism-agnostic Signal Peptide Network，USPNet），一种 SP 分类和切割位点预测深度学习方法。

大量的实验结果表明，USPNet 的分类性能比之前的方法大幅提高了 10%。USPNet 的 SP 发现流程旨在从宏基因组数据中探索从未见过的 SP。

它揭示了 347 个 SP 候选物，这些候选物与训练数据集中最接近的 SP 之间的序列同一性很低，最低仅为 13%。此外，训练集中候选物和 SP 之间的模板建模分数大多在 0.8 以上。

这些结果表明，USPNet 已经通过原始氨基酸序列和大型蛋白质语言模型学习了 SP 结构，从而能够发现未知的 SP。

该研究以「Unbiased organism-agnostic and highly sensitive signal peptide predictor with deep protein language model」为题，于 2023 年 12 月 13 日发布在《Nature Computational Science》。

信号肽 (SP) 是一种短氨基酸序列，可作为特定的靶向信号来引导蛋白质并将其转移至分泌途径。它具有三域结构：带正电的 N 区、疏水性的 H 区和不带电的 C 区。SP 作为特定片段引导蛋白质到达正确位置，然后被 C 区附近的切割位点切割。因此，SP 的鉴定对于研究蛋白质的功能至关重要。

由于 SP 的全面实验鉴定可能非常耗时且耗费资源，因此人们提出了许多计算工具来对 SP 进行分类并预测切割位点。

最近，监督模型在 SP 识别方面取得了很大进展。查询序列被编码为嵌入向量，然后输入模型以直接计算每种 SP 类型的概率。比如：DeepSig将深度卷积神经网络（CNN）架构应用于SP的识别和分离位点位置的预测。此外，SignalP5.0 的出现并对之前提出的所有方法进行了基准测试，而 SignalP6.0 能够预测之前模型无法检测到的所有五种类型的 SP。

这些方法在任务中取得了先进的性能，但大多数都存在极端的类不平衡，因此在小类数据上表现不佳。此外，这些方法通常在很大程度上依赖于有关生物体群体的附加信息来提高其性能。然而，现实中从宏基因组数据中获取足够的群体信息是不切实际的。一个强大的工具应该只需要氨基酸序列就可以产生准确的预测结果。

受到最近开发的蛋白质语言模型的启发，该模型可以隐式编码功能和结构信息并有利于各种下游任务，香港中文大学的研究团队提出了基于双向长短期记忆 (BiLSTM) 框架和蛋白质语言模型的无偏生物体不可知信号肽预测器 (USPNet)，用于对 SP 进行分类并预测其切割位点位置。

研究人员利用基于高级多序列比对（MSA）的蛋白质语言模型来丰富表示，从而帮助编码序列的组信息。该团队将类平衡损失与标签分布感知边缘（LDAM）损失结合起来作为 USPNet 的损失函数，从而提高泛化能力。该方法有效地对所有五种类型的 SP 和非 SP 型蛋白质进行分类。

研究人员将他们的模型与其他几个与任务相关的深度学习模型进行比较。与之前最先进的方法相比，USPNet 在多个类别上的 Matthews 相关系数 (MCC) 提高了 10% 以上。

然后，该团队构建了从处理宏基因组数据到进行未知 SP 检测的完整流程。研究人员从多个资源收集猪肠道宏基因组数据，最终从数百万个序列中筛选出 347 个肽作为与现有 SP 序列一致性较低且可能是未知SP的候选肽。

同样，该方法仍有改进的途径。首先，USPNet 的 MSA 过程非常耗时。USPNet-fast 速度提高约 20 倍；因此，用户可能更喜欢使用 USPNet-fast 来节省大量时间。

其次，虽然 USPNet 对于大多数 SP 类型的预测优于以前的方法，但 USPNet-fast 在革兰氏阳性组的 Sec/SPII 上表现更好。这主要是由于 MSA 质量较低。正确预测的 MSA Neff 分数平均高于错误预测的 Neff 分数。

最后，USPNet 和 USPNet-fast 在识别古细菌 Sec/SPI SP 方面的结果并不是特别令人印象深刻。研究人员认为造成这种现象的原因是他们的损失函数根据不同类型的 SP 的数量调整其权重，从而使 USPNet 倾向于将肽分为小类。为了缓解这种情况，该团队还提供了专注于预测 Sec/SPI 类别的训练模型。

未来，加速MSA的生成预计将成为一个重要的研究方向，因为它是确保结构预测等多个下游任务精度的基础。因此，MSA的进步可以极大地提高各种下游任务以及USPNet的效率。

Tags:

深度学习蛋白质模型

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

分类性能提高10%，港中大利用大型蛋白质语言模型发现未知信号肽

OpenAI推出OpenAIo1系列模型，宣称拥有类似博士生的推理能力

报道：OpenAI称即将发布具有类似人类推理能力的AI模型

华为预测大模型首次投入宝钢生产控制

欧洲隐私监管机构调查谷歌将数据用于人工智能模型的情况

李彦宏内部讲话曝光：谈大模型三大认知误区，未来模型之间的差距会变大

热门文章

机器人大厨持证上岗！北京发出首张机器人食品经营许可证

明确了！国家网信办发布《人工智能生成合成内容标识办法（征求意见稿）》

推理效率提升超200%，易用性对齐vLLM，这款国产加速框架啥来头？

马斯克盯上了盲人，Neuralink下一代脑机接口产品获批

图森无人车回应一切：转型AIGC游戏是为了活下去

李彦宏揭开大模型认知误区：开源解决不了效率问题，大模型之间差距越来越大

多了浪费！苹果高管：AI功能让iPhone16全系配8GB内存这大小完美

o1方法性能无上限！姚班马腾宇等数学证明：推理token够多，就能解决任意问题

清华系公司联合，单4090让安全大模型进入千亿时代｜长亭x趋境