近来,我国科学技能大学认知智能全国重点试验室教授辅导博士生张载熙和哈佛大学医学院Marinka Zitnik教授课题组协作,规划了一种根据图标明学习和蛋白质言语模型的深度生成算法PocketGen,生成与小分子结合的蛋白质口袋序列和空间结构。试验验证标明,PocketGen在生成成功率和功率方面均超越了传统办法。相关效果以“Efficient Generation of Protein Pockets with PocketGen”为题于北京时间11月15日发表于《天然·机器智能》(Nature Machine Intelligence)期刊。
研制适用于科学发现使命的AI算法,例如功用蛋白质规划,是认知智能全国重点试验室的一个重要研讨方向。在药物发现和生物医疗范畴,规划与小分子结合的功用蛋白质(例如酶和生物传感器)具有极端重大意义。但是,根据能量优化和模板匹配的传统办法核算速度慢、成功率低。根据深度学习的模型又存在分子-蛋白质杂乱相互作用建模难,序列-结构依靠联系学习难等问题。因而,展开高效、高成功率且精确反映物理化学规则的蛋白质口袋生成算法是该范畴的急迫需求。
研讨团队在前期蛋白质口袋生成作业FAIR(NeurIPS 23 Spotlight)和PocketFlow(NeurIPS 24 Spotlight)的根底上,研制了PocketGen(图1)。PocketGen能够根据蛋白质结构和结合小分子生成蛋白质口袋序列和结构(图1a)。PocketGen主要由两部分所组成。榜首部分为双层图Transformer编码器(图1b):该模型受蛋白质固有的层级结构启示,包含氨基酸层级编码器和原子层级编码器,学习不同细粒度的相互作用信息,并更新氨基酸/原子标明和坐标。第二部分为蛋白质预练习言语模型(图1c):PocketGen高效微调了ESM2模型,辅佐氨基酸序列猜测。具体办法为:PocketGen固定大部分模型层不变,仅微调部分习惯层参数,进行序列-结构信息穿插注意力核算,增强序列-结构一致性。在试验中,PocketGen模型不仅在亲和力和结构合理性等目标上超越传统办法,在核算功率方面也有大幅度进步(比较传统办法提高超越10倍)。
图1. (a) 用PocketGen进行蛋白质序列-结构一起规划。(b) 双层图Transformer编码器;(c) 蛋白质预练习言语模型用于序列猜测及高效微调技能。
进一步地,团队在芬太尼和艾必克等小分子结合蛋白质口袋规划使命中进行了验证,并与新晋诺贝尔奖得主David Baker教授试验室的生成模型RFDiffusion、RFDiffusionAA等作比较,验证了PocketGen的有效性。别的,还将PocketGen发生的注意力矩阵与根据榜首性原理和力场模仿剖析软件得到的成果作比照展示,标明根据深度学习的PocketGen具有较好可解释性(图2)。
图2. 左边图为薛定谔软件剖析的蛋白质-小分子相互作用联系图。在右侧展示的是PocketGen两个注意力矩阵头的热图,与左边相互联系成功对应上。
该作业推进了深度生成模型用于功用蛋白质规划,为进一步了解蛋白质规划规则并展开生物试验验证奠定了根底,也展示了人工智能办法在处理药物研制和生物工程范畴重要科学问题上的优势。
我国科学技能大学为本文榜首单位,核算机科学与技能学院博士生张载熙为本文榜首作者,、Marinka Zitnik为本文一起通讯作者。本研讨得到了我国科大陈恩红教授、刘海燕教授等的名贵主张,以及首届国家天然科学基金青年学生根底研讨项目(博士生)、我国科学技能大学优异博士生出国沟通支撑方案和中心高校科研发动经费等赞助。
(认知智能全国重点试验室、核算机科学与技能学院、AI与数据科学学院)