在《自然》杂志上发表的一项新研究“用可编程生成模型照亮蛋白质空间”中,研究人员提出了一种名为Chroma的生成人工智能(AI)模型,该模型创建了以前在自然界中未发现的具有可编程特性的新型蛋白质,具有治疗潜力,并证明了实验室实验成功。

新的生成设计了自然界中未发现的蛋白质

这项工作来自于Generate:Biomedicines,这是一家位于马萨诸塞州萨默维尔的公司,致力于机器学习、生物工程和医学的交叉领域,重点是蛋白质设计。

“从第一天起,我们就一直致力于蛋白质的生成模型。这就是我们的名字叫“Generate”的原因!”Generate:Biomedicines联合创始人兼首席技术官GevorgGrigoryan博士感叹道。

在人工智能革命之前,蛋白质设计方法仅限于根据自然界现有的蛋白质生成设计,这存在局限性,因为自然界仅对可能的蛋白质景观的一小部分进行了采样。相比之下,生成式人工智能方法强调从头开始蛋白质设计,即从头开始设计新蛋白质,以扩展功能和所需属性,超越自然已达到的范围。

色度被记录为在外部约束下设计蛋白质,这可能涉及对称性、子结构、形状,甚至自然语言提示。对Chroma生成的310种蛋白质进行实验表征,得到的蛋白质能够表达、折叠并具有有利的生物物理特性。

Grigoryan指出,可编程性从一开始就是Chroma框架的组成部分,因为生产治疗应用需要的不仅仅是生成可以通过实验验证的结构。评估蛋白质功能,例如结合、变构控制和酶活性,对于治疗潜力至关重要。

此外,Grigoryan强调,该研究的一个新颖之处是在考虑蛋白质设计活动中的实验验证时,范式发生了转变。

“我们的目标不是‘我希望蛋白质发挥作用’,而是表征模型。我们想了解Chroma学到的知识有多少是真实的,哪些是不真实的,”Grigoryan告诉GEN。

在决定通过实验验证哪些计算结构时,常见的方法涉及过滤步骤,其中蛋白质设计者根据他们对生物物理结构的理解来批评设计,例如由于溶解度问题而惩罚疏水区域的过度代表性。

Grigoryan告诉GEN,选择用于实验验证的310种蛋白质是直接从模型输出中获取的,并未以这种方式进行过滤。

“从这些蛋白质中,我们看到了非常高的成功率,这当然非常令人兴奋,因为它表明由Chroma参数化的这个大蛋白质空间是真实的[并且允许更有效的蛋白质设计],”Grigoryan继续说道。

让数据为您服务

蛋白质设计领域传统的“自下而上”方法基于原子的生物物理动力学模拟蛋白质行为,在逻辑上是“精细且一致”的,但并没有带来现在机器学习可以实现的进步。

机器学习方法不是从第一原理开始并评估模拟是否准确,而是从观察开始并推断导致这些观察的原理。

“机器学习工具可以让数据为你服务,”格里戈里安说。

具体来说,Chroma利用扩散模型,这是一种机器学习工具,在图像生成工具方面取得了相当大的成功,例如OpenAI的Midjourney、DALL-E2和StabilityAI的StableDiffusion。这些生成模型学习训练数据的模式并生成具有相似特征的新输出。

Grigoryan强调,该框架使Chroma能够适应新的可编程条件的引入。

“为新属性创建模型并将其插入Chroma非常容易。与DALL-E图像生成器类似,您不必为动物、海滩和山脉创建单独的图像模型。你可以告诉模型,‘我想要一只熊猫戴着宽边帽在海滩上跳舞’,它就会为你生成这个,”Grigoryan描述道。

Chroma并不是唯一利用扩散模型进行蛋白质设计的生成人工智能工具。7月,华盛顿大学(UW)蛋白质设计研究所(IPD)所长、生物化学教授DavidBaker博士的实验室发表了他们的扩散模型RoseTTAFold扩散(RFdiffusion),该模型展示了强大的实验验证和使用方便,本质上。

Baker告诉GEN:“到目前为止,[Chroma]仅通过实验证明可以设计新结构,但很可能适用于设计新的蛋白质、肽和小分子相互作用,正如RFdiffusion所证明的那样。”

沿着这一思路,Grigoryan指出,有效的蛋白质设计模型只是更广泛的治疗发现过程的一部分。

“Chroma是一个模型,而不是药物打印机。治疗药物的制作涉及到很多工作,这可能会占用大量资源,并且涉及湿实验室和干实验室之间的非常紧密的整合,”Grigoryan说。

向所有人开放

生成:Biomedicines已将Chroma背后的代码作为开源软件提供给学术界和工业界的所有研究人员。

“我们的目的是在发布预印本之前开源。从社会角度来看,阻碍[Chroma]为推进生物医学科学以及其他应用(例如纳米技术和材料科学)所做的事情是不合适的,”Grigoryan解释道。

从公司的角度来看,格里戈里安还指出,持续走在科学前沿的能力与公司吸引和留住最优秀人才的能力有关。分享这项工作是为研究界做出贡献的关键行动。

“Generate:Biomedicines为科学界提供Chroma真是太棒了!”贝克说。贝克还表示,社区将受益于多种可供探索的生成蛋白质设计模型。

虽然扩散模型是“当下的潮流”,但新的蛋白质设计工具预计将渗透到一个快速发展的领域。

“现在代码已经可用,[社区]当然可以自由地在其基础上构建并创建更好的版本。我预计并希望这正是发生的事情,”格里戈里安说。