在人工智能(AI)领域,一款名为PINNACLE的工具首次体现了Kay的洞察力,即理解蛋白质在适当环境下的行为,这些行为由这些蛋白质在其中发挥作用并与之相互作用的组织和细胞决定。值得注意的是,PINNACLE克服了当前AI模型的一些局限性,这些模型倾向于分析蛋白质如何运作和失灵,但每次只分析一种细胞和组织类型。

新的人工智能工具可以捕捉蛋白质在特定环境中的行为方式

《自然方法》杂志描述了这种新,由哈佛医学院的研究人员领导开发。

“自然界是相互联系的,PINNACLE有助于识别这些联系,我们可以利用这些联系获得有关蛋白质和更安全、更有效的药物的更详细知识,”这项研究的资深作者、哈佛医学院布拉瓦尼克研究所生物医学信息学助理教授MarinkaZitnik说。“它克服了当前无上下文模型的局限性,并提出了增强蛋白质相互作用分析的未来方向。”

研究人员指出,这一进展可以推动人们对蛋白质在健康和疾病中的作用的当前理解,并阐明新的药物靶点,以设计更精确、更有针对性的治疗方法。

PINNACLE免费向世界各地的科学家开放。

向前迈出的重要一步

理清蛋白质之间的相互作用及其相邻生物邻居的影响是一项棘手的工作。当前的分析工具通过提供有关单个蛋白质结构特性和形状的信息发挥着至关重要的作用。然而,这些工具并非旨在解决整体蛋白质环境的背景细微差别。相反,它们产生无背景的蛋白质表示,这意味着它们缺乏细胞类型和组织类型的背景信息。

然而,蛋白质在不同的细胞和组织环境中发挥不同的作用,这取决于同一组织或细胞是健康的还是患病的。单一蛋白质表示模型无法识别在多种环境中变化的蛋白质功能。

说到蛋白质的行为,那就是位置、位置、位置

蛋白质由20种不同的氨基酸组成,是细胞和组织的组成部分,对于一系列维持生命的生物功能必不可少——从输送氧气到全身、收缩肌肉以进行呼吸和行走、促进消化和抵抗感染等等。

科学家估计,人体内的蛋白质数量为2万种至数十万种。

蛋白质和其他分子(如DNA和RNA)相互作用。蛋白质之间和跨蛋白质的复杂相互作用产生了错综复杂的蛋白质相互作用网络。这些网络位于其他细胞内和细胞之间,与其他蛋白质和蛋白质网络进行许多复杂的串扰。

PINNACLE的优势在于它能够识别蛋白质行为会因细胞和组织类型而变化。同一种蛋白质在健康肺细胞和健康肾细胞或患病结肠细胞中的作用可能不同。

PINNACLE揭示了这些细胞和组织如何以不同的方式影响相同的蛋白质,这是当前模型无法实现的。根据蛋白质网络所在的特定细胞类型,PINNACLE可以确定哪些蛋白质参与某些对话,哪些蛋白质保持沉默。这有助于PINNACLE更好地解码蛋白质串扰和行为类型,并最终使其能够预测针对导致疾病的故障蛋白质的精准药物靶点。

研究人员指出,PINNACLE并不会取代单一表示模型,而是对其进行了补充,因为它可以分析各种细胞环境中的蛋白质相互作用。

因此,PINNACLE可以帮助研究人员更好地理解和预测蛋白质功能,并有助于阐明重要的细胞过程和疾病机制。

这种能力可以帮助精确定位“可用药”蛋白质,作为个体药物的靶点,以及预测各种药物在不同细胞类型中的作用。因此,PINNACLE可以成为科学家和药物开发人员更有效地锁定潜在靶点的宝贵工具。

齐特尼克也是哈佛大学肯普纳自然与人工智能研究所的副教授,他需要对药物研发过程进行这样的优化。

将一种新药推向市场可能需要10到15年的时间,花费高达10亿美元,而且从发现到制成药物的过程非常坎坷,最终结果往往难以预测。事实上,近90%的候选药物都没有成为药物。

打造和培训PINNACLE

研究人员利用来自综合多器官图谱的人类细胞数据,结合蛋白质-蛋白质相互作用、细胞类型间相互作用和组织的多种网络,训练PINNACLE生成涵盖156种细胞类型和62种组织和器官的全景图形蛋白质表示。

PINNACLE迄今已生成近395,000个多维表示,而当前单蛋白模型下可能生成的表示约为22,000个。其156种细胞类型中的每一种都包含约2,500种蛋白质的丰富背景蛋白质相互作用网络。

目前的细胞类型、组织和器官数量并不是该模型的上限。迄今为止评估的细胞类型来自活体人类捐献者,涵盖了人体的大多数细胞类型,但并非全部。此外,许多细胞类型尚未被识别,而其他细胞类型则很罕见或难以探测,例如大脑中的神经元。

为了使PINNACLE的细胞库多样化,Zitnik计划利用一个包含从整个人体采集的数千万个细胞的数据平台。