Gladstone Institutes、麻省理工学院和哈佛大学 Broad Institute 以及 Dana-Farber 癌症研究所的研究人员已转向人工智能 (AI),以帮助他们了解相互关联的人类基因的大型网络如何控制细胞的功能,以及这些网络的中断如何导致疾病。

人工智能系统预测基因修饰的后果

大型语言模型,也称为基础模型,是从大量通用数据中学习基础知识,然后应用这些知识完成新任务的 AI 系统——这一过程称为迁移学习。随着 ChatGPT 的发布,这些系统最近获得了主流关注,ChatGPT 是一种基于 OpenAI 模型构建的聊天机器人。

在发表在《自然》杂志上的新作品中,格拉德斯通助理研究员Christina Theodoris 医学博士开发了一个基础模型来理解基因如何相互作用。这个名为 Geneformer 的新模型从广泛的人体组织的大量基因相互作用数据中学习,并将这些知识转移到预测疾病中可能出现的问题。

Theodoris 和她的团队使用 Geneformer 阐明心脏细胞如何在心脏病中发生异常。然而,这种方法也可以解决许多其他细胞类型和疾病。

“Geneformer 在许多生物学领域都有广泛的应用,包括发现可能的疾病药物靶点,”西奥多里斯说,他也是加州大学旧金山分校儿科学系的助理教授。“这种方法将极大地提高我们在因有限数据阻碍进展的疾病中设计网络校正疗法的能力。”

Theodoris 在与 X. Shirley Liu 博士(达纳法伯癌症研究所功能性癌症表观遗传学中心前主任)和 Patrick Ellinor 博士(医学博士,博士,博德研究所心血管疾病计划主任)的博士后研究期间设计了Geneformer——这项新研究的两位作者。

网络视图

许多基因在激活时会引发一系列分子活动,从而触发其他基因提高或降低其活动。这些基因中的一些反过来又会影响其他基因——或者回过头来阻止第一个基因。因此,当科学家勾画出几十个相关基因之间的联系时,生成的网络图通常看起来像一张纠结的蜘蛛网。

如果仅以这种方式映射出少数基因是混乱的,那么试图了解人类基因组中所有 20,000 个基因之间的联系将是一项艰巨的挑战。但是,如此庞大的网络图谱可以让研究人员深入了解整个基因网络如何随疾病发生变化,以及如何逆转这些变化。

“如果一种药物靶向网络外围的基因,它可能会对细胞的功能产生很小的影响,或者只能控制疾病的症状,”Theodoris 说。“但通过恢复在网络中发挥核心作用的基因的正常水平,你可以治疗潜在的疾病过程并产生更大的影响。”

人工智能“迁移学习”

通常,为了绘制基因网络图,研究人员依赖于包含许多相似细胞的庞大数据集。他们使用人工智能系统的一个子集,称为机器学习平台,来计算数据中的模式。例如,机器学习算法可以对来自患有和未患有心脏病的患者的大量样本进行训练,然后学习将患病样本与健康样本区分开来的基因网络模式。

然而,生物学中的标准机器学习模型经过训练只能完成一项任务。为了让模型完成不同的任务,它们必须从头开始重新训练新数据。因此,如果第一个例子中的研究人员现在想要从健康的对应物中识别出患病的肾脏、肺或脑细胞,他们需要重新开始并使用来自这些组织的数据训练新算法。

问题是,对于某些疾病,没有足够的现有数据来训练这些机器学习模型。

在这项新研究中,Theodoris、Ellinor 和他们的同事通过利用一种称为“迁移学习”的机器学习技术来解决这个问题,将 Geneformer 训练为一个基础模型,其核心知识可以转移到新任务中。

首先,他们“预训练”了 Geneformer,通过向它提供有关来自广泛人体组织的约 3000 万个细胞中基因活性水平的数据,使其对基因如何相互作用有一个基本的了解。

为了证明迁移学习方法有效,科学家们随后对 Geneformer 进行了微调,以预测基因之间的联系,或者降低某些基因的水平是否会导致疾病。Geneformer 能够以比其他方法更高的准确性做出这些预测,因为它在预训练过程中获得了基础知识。

此外,即使仅显示极少数相关数据示例,Geneformer 也能够做出准确的预测。

“这意味着 Geneformer 可用于对研究进展缓慢的疾病进行预测,因为我们无法获得足够大的数据集,例如罕见疾病和影响临床难以取样的组织的疾病,”Theodoris 说.

心脏病的教训

Theodoris 的团队接下来着手使用迁移学习来推进心脏病的发现。他们首先要求 Geneformer 预测哪些基因会对心肌细胞(心脏中的肌肉细胞)的发育产生不利影响。

在该模型识别的主要基因中,许多已经与心脏病有关。

“该模型预测了我们已经知道的对心脏病非常重要的基因,这一事实让我们更加相信它能够做出准确的预测,”Theodoris 说。

然而,Geneformer 发现的其他潜在重要基因之前并未与心脏病相关,例如 TEAD4 基因。当研究人员在实验室中从心肌细胞中去除 TEAD4 时,这些细胞不再能够像健康细胞那样有力地搏动。

因此,Geneformer 利用迁移学习得出了一个新的结论:即使没有提供任何关于缺乏 TEAD4 的细胞的信息,它也正确地预测了 TEAD4 在心肌细胞功能中发挥的重要作用。

最后,该小组要求 Geneformer 预测应该针对哪些基因使患病的心肌细胞在基因网络水平上与健康细胞相似。当研究人员在受心肌病(一种心肌疾病)影响的细胞中测试两个提议的靶标时,他们确实发现使用 CRISPR 基因编辑技术去除预测的基因可以恢复患病心肌细胞的搏动能力。

“在了解正常基因网络是什么样子和患病基因网络是什么样子的过程中,Geneformer 能够弄清楚可以针对哪些特征在健康和患病状态之间进行切换,”Theodoris 说。“迁移学习方法使我们能够克服有限患者数据的挑战,以有效地识别可能的蛋白质,以在患病细胞中进行药物靶向。”

“使用 Geneformer 的一个好处是能够预测哪些基因可以帮助细胞在健康和疾病状态之间切换,”Ellinor 说。“我们能够在 Broad Institute 实验室的心肌细胞中验证这些预测。”

研究人员计划扩大 Geneformer 分析的细胞数量和类型,以不断提高其分析基因网络的能力。他们还将该模型开源,以便其他科学家可以使用它。

“使用标准方法,您必须为每个新应用程序从头开始重新训练模型,”Theodoris 说。“我们的方法真正令人兴奋的是,Geneformer 关于基因网络的基础知识现在可以转移到回答许多生物学问题,我们期待看到其他人用它做什么。”