改造蛋白质以使其具有所需特性一直是现代生物技术的圣杯。例如,食品行业可以从改造酶中受益,这种酶与天然酶相比,能够在较高温度下增强生化反应。这可以节省宝贵的资源,例如劳动力、金钱和时间。然而,获得具有所需特性的功能性蛋白质的过程面临着重大挑战。

DeepEvo一种设计定制蛋白质的智能策略

当前的蛋白质工程方法(例如定向进化)在很大程度上依赖于机会来缩小目标蛋白质的理想变体范围。定向进化使用重复引入蛋白质序列改变(称为突变)(迭代诱变),然后快速筛选大量变体蛋白质(高通量筛选)。毫不奇怪,这种方法劳动密集且效率低下。

为了克服这些限制,由中国科学院天津工业生物技术研究所和国家合成生物学技术创新中心的蒋惠峰博士领导的中国研究人员小组开发了一种基于人工智能的蛋白质工程策略,称为“DeepEvo”。

江博士进一步解释说:“DeepEvo采用深度进化策略,结合深度学习原理(一种模拟活体大脑运作方式的过程)和进化生物学。”该研究于2024年3月20日在《BioDesignResearch》上在线发表。

研究人员利用DeepEvo改造了一种名为甘油醛-3-磷酸脱氢酶(G3PDH)的酶,使其具有耐高温性。G3PDH在活细胞糖酵解过程中分解葡萄糖以产生能量。当团队通过实验验证DeepEvo结果时,他们取得了超过26%的成功率,这令人欣喜。

在本研究中,DeepEvo使用的数据包括来自具有不同最佳生长温度(OGT)的生物体的序列以及具有所需功能的自然序列。开发的DeepEvo策略包括一个选择器(Thermo-selector)和一个变体生成器(Variant-generator),以产生包含所需特性的功能性蛋白质序列。

选择器充当选择压力以丰富所需的蛋白质序列,而变体生成器则生成这些序列——在本例中是具有高温耐受性的G3PDH变体。标有OGT的序列训练了热选择器,而具有所需功能的序列训练了变体生成器。热选择器筛选序列,指导变体生成器。

值得注意的是,蛋白质语言模型(一种深度学习模型)构成了本研究中使用的Thermo-selector的基础。此类模型在大量现实世界蛋白质序列数据上进行训练,以学习这些序列中固有的模式和特征。这种开发的选择器使用学习到的蛋白质序列表示来指导具有所需特征的序列的生成和选择。

此外,研究人员通过生成器和选择器的迭代过程,在蛋白质序列中积累了耐高温性状,对预测为耐高温的序列进行迭代细化,形成了一个序列生成的循环。

江博士进一步解释说:“DeepEvo所涉及的迭代过程模仿了自然选择的过程,其中功能序列会随着世代的推移而受到青睐和积累,最终导致具有所需特性的蛋白质变体的开发。”

随后,研究人员通过湿实验室实验验证了预测的耐高温蛋白质序列是否保留了功能基序。从生成的30个序列中,他们获得了8个变体,从而凸显了DeepEvo在耐高温蛋白质工程方面的高效性。

展望未来,DeepEvo可以帮助选择各种感兴趣的特性,而不仅仅是耐高温性。在这方面,江博士评论道:“我们可以应用DeepEvo方法来设计其他蛋白质特性,例如耐酸碱性、催化活性和抗原亲和力,从而促进生成具有多种所需特性的新蛋白质。”

因此,DeepEvo为高效的蛋白质工程铺平了道路,这一切都归功于江博士及其研究小组的努力。轻松高效地生产针对所需特性的定制蛋白质可能很快就会成为现实。