2023/04/06

生物医学资讯界的 ChatGPT ?新的机器算法 CLEAN 提供酶功能更准确的预测!

酶有多重要呢?它是一种生物催化剂,在生命体系中扮演着关键的角色,控制和调节各种代谢途径,保障它们高效工作。许多研究酶的科学家,都希望把它的功能改造得更好,实现高效能、高稳定性、更优质的催化剂。本次,伊利诺伊大学香槟分校化学和生物分子工程 ( Carl R. Woese Institute for Genomic Biology at Illinois ) 赵赵惠民教授 ( Huimin Zhao )团队独辟蹊径,希望能预测酶的功能。

对于酶功能的注释是一项基本挑战,已经开发了许多计算工具。然而,这些工具大多无法准确预测功能注释,例如酶的 EC ( enzyme commission, EC ) 编号,是以每种酶所催化的化学反应为分类基础,用于研究较少的蛋白质或具有以前未表征的功能或多种活动的蛋白质。如果能更准确的预测酶,将是一项伟大的革新。

研究人员在《 Science  》上发表他们的发现,并已于 3 月 31 日在线提供  CLEAN 公开使用。伊利诺伊州 Carl R. Woese 基因组生物学研究所的研究团队表示,随着基因组学的进步,许多酶已被鉴定和定序,但科学家们对这些酶的作用知之甚少或一无所知。许多计算工具试图预测酶的功能,通常是试图透过将查询的序列与已知酶的目录进行比较,并找到相似的序列来分配一个酶编号,也就是一个 ID 代码,指示酶催化的反应类型。然而,这些工具不适用于研究较少或未表征的酶,或是执行多项工作的酶。

一种新的 AI 工具可以根据酶的氨基酸序列预测酶的功能,即使这个酶未经研究或知之甚少。研究人员表示,这款名为“启用对比学习的酶注释(contrastive learning–enabled enzyme annotation, CLEAN)”的机器学习算法,在准确性、可靠性和灵敏度方面优于领先的最先进工具,有助于对酶及其功能的了解,并有利于基因组学、化学、工业材料、医学、制药等领域的研究。

CLEAN 机器学习算法,与最先进的工具 BLASTp 相比,它可以将 EC 编号分配给具有更高准确性、可靠性和灵敏度的酶。对比学习框架使 CLEAN 能够准确地注释未充分研究的酶、纠正错误标记的酶,以及识别具有两个或更多 EC 数字的混杂酶。团队透过系统的模拟计算功能和体外实验证明,该工具将能够被广泛用于预测未表征酶的功能,从而推动许多领域的发展,例如基因组学、合成生物学和生物催化。

研究负责人赵惠民教授说:“就像 ChatGPT 使用书面语言的数据来建立预测文字一样,我们正在利用蛋白质的语言来预测它们的活动,因为几乎每个研究人员在处理新的蛋白质序列时,都想立即知道蛋白质的作用。本团队不是第一个使用 AI 工具来预测酶 EC 编号的人,但是首个使用这种对比学习的新深度学习算法来预测酶功能的人。这种算法比 AI 效果更好。虽然不能保证每个产品都可以被准确预测,但可以获得比其他两种或其他三种方法更高的准确率。”此外,在为任何应用(生物学、医学、工业)制造化学品时,该工具将帮助研究人员快速确定酶的功用。
研究团队正在为寻找表征酶或确定酶是否可以催化所需反应的其他研究人员提供在线访问 CLEAN 的途径。希望这个工具能被广大研究界广泛使用,通过网络界面,研究人员只需在搜索框中输入序列,就像搜索引擎一样,就可以看到结果。该小组计划扩展 CLEAN 背后的 AI,以表征其他蛋白质,例如结合蛋白,并进一步开发机器学习算法,以利用户搜寻所需的反应,而 AI 会指出适合该任务的酶。

赵教授表示:“有很多未表征的结合蛋白,例如受体和转录因子,我们也想预测它们的功能。我们想预测所有蛋白质的功能,以便我们能够了解细胞所具有的所有蛋白质,并更好地研究或设计整个细胞以用于生物技术或生物医学应用。”

参考资料:1. https://www.science.org/doi/10.1126/science.adf2465

标签