机器学习如何推动结构生物学

2024-07-23 09:03:59生活专一的悟空

对于卢卡斯·法尔农来说，没有比单个受精卵如何发育成一个功能齐全的人类更令人着迷的问题了。作为一名结构生物学家，他正在研究最小尺度上的这一过程：数万亿个原子必须同步工作才能实现这一过程。

机器学习如何推动结构生物学

“我看不出解决 5,000 块拼图和我们在实验室进行的研究有什么大区别，”哈佛医学院布拉瓦尼克研究所细胞生物学助理教授 Farnung 说。“我们试图从视觉上弄清楚这个过程是什么样子，然后我们就可以形成关于它如何运作的想法。”

人体中几乎所有细胞都含有相同的遗传物质，但这些细胞在发育过程中会变成什么组织类型(例如，它们会变成肝脏还是皮肤)在很大程度上取决于基因表达，基因表达决定了哪些基因被打开和关闭。基因表达受转录过程的调控，这是 Farnung 工作的重点。

在转录过程中，分子机器读取 DNA 中存储的遗传蓝图所含的指令，并生成执行指令的分子 RNA。其他分子机器读取 RNA 并利用此信息制造为身体几乎所有活动提供能量的蛋白质。

Farnung 研究负责转录的分子机器的结构和功能。

在接受《哈佛医学新闻》的对话时，Farnung 讨论了他的工作以及机器学习如何加速他所在领域的研究。

您的研究试图回答的核心问题是什么?

我总是说，我们感兴趣的是最小的逻辑问题。人类基因组几乎存在于每个细胞中，如果你把组成基因组的 DNA 拉长，它的长度大约是两米，也就是六英尺半。但这个两米长的分子必须塞进细胞核里，而细胞核只有几微米大小。这相当于把一条从波士顿延伸到康涅狄格州纽黑文(约 150 英里)的鱼线塞进一个足球里。

为了实现这一点，我们的细胞将 DNA 压缩成一种称为染色质的结构，但分子机器却无法再访问 DNA 上的基因组信息。这就产生了冲突，因为 DNA 需要足够紧凑才能容纳在细胞核内，但分子机器必须能够访问 DNA 上的基因组信息。我们特别感兴趣的是可视化一种称为 RNA 聚合酶 II 的分子机器如何获取基因组信息并将 DNA 转录为 RNA 的过程。

您使用什么技术来可视化分子机器?

我们的一般方法是将分子机器从细胞中分离出来，然后使用特定类型的显微镜或 X 射线束对其进行观察。为此，我们将编码感兴趣的人类分子机器的遗传物质引入昆虫或细菌细胞中，这样细胞就会大量制造这种机器。然后，我们使用纯化技术将机器从细胞中分离出来，以便我们可以单独研究它。

然而，事情变得复杂了，因为我们通常感兴趣的不仅仅是单个分子机器，也就是我们所说的蛋白质。有成千上万种蛋白质相互作用来调节转录，所以我们必须重复这个过程数千次才能了解这些蛋白质-蛋白质相互作用。

人工智能开始渗透到基础生物学的方方面面。它是否改变了你进行结构生物学研究的方式?

在过去的 30 或 40 年里，我所在领域的研究一直是一个繁琐的过程。一名博士生的职业生涯可能只专注于了解一种蛋白质，而了解蛋白质在细胞中的相互作用则需要数千名学生的职业生涯。然而，在过去的两三年里，我们越来越多地寻求使用计算方法来预测蛋白质相互作用。

Google DeepMind 发布 AlphaFold 时取得了重大突破，这是一种可以预测蛋白质折叠的机器学习模型。重要的是，蛋白质的折叠方式决定了它们的功能和相互作用。我们现在正在使用人工智能来预测数以万计的蛋白质 - 蛋白质相互作用，其中许多相互作用从未在实验中描述过。并非所有这些相互作用都发生在细胞内，但我们可以通过实验室实验来验证它们。

这非常令人兴奋，因为它确实加速了我们的科学研究。当我回顾我的博士学位时，前三年基本上是失败的——我没能发现任何蛋白质-蛋白质相互作用。现在，有了这些计算预测，我实验室的博士生或博士后可以非常有信心，实验室验证蛋白质-蛋白质相互作用的实验将会成功。我称之为分子生物学的强化版——但合法——因为我们现在可以更快地找到我们想要回答的实际问题。

除了效率和速度之外，人工智能还如何重塑你的领域?

一个令人兴奋的变化是，我们现在可以以无偏见的方式测试人体中的任何蛋白质与任何其他蛋白质，看看它们是否有可能相互作用。我们领域中的机器学习工具正在造成类似于个人电脑对社会造成的破坏。

我刚成为研究员时，人们使用 X 射线晶体学来揭示单个蛋白质的结构——这是一项精美的高分辨率技术，可能需要很多年的时间。后来，在我攻读博士学位和博士后期间，低温电子显微镜(简称低温电子显微镜)出现了——这项技术使我们能够以高分辨率观察更大、更动态的蛋白质复合物。过去 10 年，低温电子显微镜使我们对生物学的理解取得了很大进展，并加快了药物开发。

我以为自己很幸运能参与到低温电子显微镜带来的所谓分辨率革命中。但现在，感觉蛋白质预测的机器学习正在带来第二次革命，这对我来说真是太神奇了，让我想知道我们还会看到多少加速。

据我估计，我们现在的研究速度可能比 10 年前快 5 到 10 倍。看看机器学习如何在未来 10 年改变我们进行生物研究的方式将会很有趣。当然，我们必须小心谨慎地管理这些工具，但我很高兴能够以 10 倍的速度发现我思考已久的问题。

除了实验室之外，您的工作还有哪些下游应用?

我们正在从基础层面了解人体内的生物机理，但了解基本的生物机制有助于我们开发出针对各种疾病的有效治疗方法，这一点一直很有希望。例如，事实证明，分子机器对 DNA 染色质结构的破坏是许多癌症的主要驱动因素之一。一旦我们弄清楚了这些分子机器的结构，我们就能理解改变几个原子来复制导致癌症的突变的效果，此时我们就可以开始设计针对蛋白质的药物。

我们刚刚与HMS 治疗计划合作启动了一个项目，该项目正在研究染色质重塑剂，这是一种在前列腺癌中发生严重突变的蛋白质。我们最近获得了这种蛋白质的结构，并正在进行虚拟筛选，以查看哪些化合物与其结合。我们希望能够设计一种抑制这种蛋白质的化合物，并有可能开发成一种可能减缓前列腺癌进展的成熟药物。

我们也在研究与自闭症等神经发育障碍有关的蛋白质。机器学习可以在这方面为我们提供帮助，因为我们用来预测蛋白质结构和蛋白质间相互作用的工具也可以预测小分子化合物如何与蛋白质结合。

说到合作，跨研究领域和学科的工作对您的研究有何重要性?

合作对我的研究来说非常重要。生物学领域已经变得非常复杂，有如此多不同的研究领域，以至于不可能了解一切。合作使我们能够让具有不同专业知识的人聚在一起研究重要的生物学问题，例如分子机器如何访问人类基因组。

我们与哈佛医学院的其他研究人员在多个层面展开合作。有时，我们会利用我们的结构专业知识来支持其他实验室的工作。有时，我们已经解决了某种蛋白质的结构，但我们需要合作来了解该蛋白质在更广泛的细胞环境中的作用。我们还与使用其他类型分子生物学方法的实验室合作。合作对于推动进步和更好地理解生物学至关重要。