在生物体内,蛋白质几乎构成了一切:从运行每个细胞新陈代谢的分子机器,到头发的尖端。编码在DNA中的蛋白质可以表示为由数百个称为氨基酸的单独分子组成的线,它们连接在一起。根据其特定的氨基酸组合,蛋白质以一种或另一种方式折叠,从而形成功能性的3D形状。形状决定功能,并且有20种不同的氨基酸可供选择,可能的组合数不胜数。

人工智能进行的3D蛋白质结构预测可以促进癌症研究和药物发现

当前的基因组技术使了解蛋白质的氨基酸序列变得非常容易,但了解其3D形状需要昂贵且耗时的实验程序,这并不总是成功的。几十年来,研究人员一直试图了解使蛋白质折叠成特定形状的原因,并从其氨基酸序列中预测它。

AlphaFold2是由谷歌旗下的人工智能公司DeepMind开发的神经网络,经过专门训练,可以精确地从蛋白质的氨基酸序列中解析出蛋白质的3D结构。几年前,它在年度蛋白质结构建模CASP国际竞赛中获胜后,其准确性给科学界留下了深刻印象,当时其团队展示了包括人类在内的11个不同物种的完整蛋白质组。

为了将AlphaFold2发布的所有数据纳入背景(超过30万个模型并且还在不断增长),包括JosepCarreras白血病研究所癌症免疫遗传学小组负责人EduardPorta博士在内的独立研究人员社区比较了新结构可供目前可用的人使用,并得出结论,AlphaFold2为任何给定物种贡献了额外25%的高质量蛋白质结构。他们的分析最近发表在NatureStructural&MolecularBiology上。

许多蛋白质在疾病(如癌症)中所起的关键作用是众所周知的,但缺乏对它们在分子水平上的功能的深入了解阻碍了针对它们的特定策略的发展。这些蛋白质的结构信息将帮助科学家更好地了解这些蛋白质,了解它们在细胞内可能与哪些其他分子相互作用,并设计出能够在它们被改变时干扰它们的功能的新药。

当然,AlphaFold2的功能存在局限性。社区团队发现该算法在尝试重建蛋白质复合物时存在问题。大多数蛋白质与其他蛋白质一起工作以完成生物学功能,因此非常需要预测不同蛋白质如何粘在一起。确定的另一个限制是它无法显示突变蛋白质的结构,其序列上的氨基酸发生了改变。突变通常会导致蛋白质功能异常,并且是癌症等许多疾病的原因。

然而,尽管存在局限性,但该团队认识到AlphaFold2对社区的杰出贡献,这将在未来几年对基础和生物医学研究产生重大影响。不仅得益于它的直接贡献(数以千计的新的可靠3D蛋白质模型),还因为它开启了基于人工智能的计算工具的新时代,能够产生任何人都无法预料的结果。

事实上,这个时代已经开始,最近,Meta(前Facebook)的一个团队使用其自然语言预测器的修改版本来“自动完成”蛋白质。这个名为ESMFold的AI工具与Google对应的工具相比似乎不太准确,但速度要快60倍,并且可以克服一些已识别的AlphaFold2限制,例如处理突变序列。

总而言之,正如该出版物的作者所承认的那样,“AlphaFold2[和即将到来的工具]的应用将对生命科学产生变革性的影响。”