想象一下数以百万计的基因突变。利用CRISPR基因编辑技术,这些突变中的少数可能具有治疗潜力,但发现并验证哪些突变需要大量的实验室工作和成本。但如果能够使用人工智能(AI)虚拟实现这一点呢?

CRISPRCREME一款用于虚拟基因组实验的人工智能产品

冷泉港实验室(CSHL)的研究人员在助理教授PeterKoo博士的带领下,及其团队开发了一个由人工智能驱动的虚拟实验室,即c是调节元件模型解释(CREME),遗传学家只需单击按钮即可运行数千个虚拟实验。使用CREME,科学家可以使用该工具开始识别和了解基因组的关键区域。

Koo及其同事在《自然遗传学》杂志上发表了一篇题为《从大规模深度神经网络解释顺式调控相互作用》的论文,介绍了CREME的开发情况。他们在论文中指出:“CREME可以提供跨多个基因组组织尺度的解释,从顺式调控元件到其中精细映射的功能序列元素,为基因组的调控结构提供高分辨率洞察。”

“用于预测基因表达的大规模、基于序列的深度神经网络(DNN)的兴起,给它们的评估和解释带来了挑战,”作者写道。目前的评估将DNN预测与实验数据相结合,尽管这些方法提供了对泛化的洞察,但它们可能只能提供对其决策过程的有限洞察,该团队继续说道。“……大规模DNN的广泛序列大小在评估其预测和解释学习模式时带来了挑战。”

作者进一步指出,目前评估大规模模型的方法依赖于评估预测与现有实验扰动分析(例如CRISPR干扰(CRISPRi)技术)之间的一致性。CREME的灵感来自CRISPRi,这是一种基于CRISPR的遗传扰动技术,它允许生物学家降低细胞中特定基因的活性。CREME几乎类似于AI版本的CRISPRi,它让科学家可以在虚拟基因组中进行类似的更改并预测它们对基因活动的影响。“在这里,我们提出了顺式调控元件模型解释(CREME),这是一种计算机扰动工具包,可以解释基因组DNN学习到的基因调控规则,”该团队评论道。“CREME提供了一套计算机实验,用于对大规模基于序列的DNN进行无偏解释,从而实现类似于CRISPRi扰动的CRE级分析。”

Koo补充道:“实际上,CRISPRi在实验室中进行起来极具挑战性。而且会受到扰动数量和规模的限制。但由于我们所做的所有扰动都是[虚拟的],因此我们可以突破界限。我们进行的实验规模是前所未有的——数十万次扰动实验。”

Koo和他的团队在另一个由人工智能驱动的DNN基因组分析工具Enformer上测试了CREME。他们想知道Enformer的算法如何对基因组进行预测。Koo说,这类问题是他工作的核心。

“我们有这些强大的大型模型,”Koo说。“它们在提取DNA序列和预测基因表达方面非常引人注目。但我们真的没有任何好方法来尝试了解这些模型正在学习什么。据推测,它们之所以做出准确的预测,是因为它们已经了解了很多有关基因调控的规则,但我们实际上并不知道它们的预测是基于什么。”

借助CREME,Koo的团队发现了Enformer在分析基因组时学到的一系列遗传规则。这些见解有朝一日可能会成为药物研发的无价之宝。研究人员表示:“CREME提供了一个强大的工具包,可以将基因组DNN的预测转化为基因调控的机制见解……通过将CREME应用于最先进的DNNEnformer,我们可以识别出增强或抑制基因表达的顺式调控元件,并描述它们复杂的相互作用。”Koo补充道:“了解基因调控规则可以让你有更多的选择,以精确和可预测的方式调整基因表达水平。”

通过进一步微调,CREME可能很快会让遗传学家走上发现新治疗靶点的道路。也许最有影响力的是,它甚至可能让那些无法进入真实实验室的科学家有能力实现这些突破。该团队总结道:“CREME提供了改进扰动实验的路线图,以更好地表征顺式调控机制”,并指出通过DNN解释获得的任何见解都应“视为假设并通过实验室实验进行验证”。