人工智能设计的DNA开关可打开或关闭基因表达
杰克逊实验室(JAX)、麻省理工学院和哈佛大学布罗德研究所以及耶鲁大学的研究人员利用人工智能(AI)设计了数千个新的DNA开关,可以精确控制基因在不同细胞类型中的表达。他们的新方法可以精确激活或抑制特定组织中的基因,从而彻底改变生物技术。
“这些合成设计的元素的特别之处在于,它们对所针对的目标细胞类型表现出了显著的特异性,”杰克逊实验室副教授、该研究的共同资深作者RyanTewhey博士说。“这为我们创造了机会,让我们能够在不影响身体其他部位的情况下,仅在一种组织中提高或降低基因的表达。”
近年来,基因编辑技术和其他基因治疗方法使科学家能够改变活细胞内的基因。然而,只影响特定细胞类型或组织中的基因,而不是影响整个生物体的基因,一直很困难。这在一定程度上是因为理解控制基因表达和抑制的DNA开关(称为顺式调节元件(CRE))的持续挑战。
在当前的研究中,研究人员设计了新的、前所未见的合成CRE,并利用CRE激活大脑、肝脏或血细胞中的基因,而不会开启其他细胞类型中的这些基因。
科学家们知道,人类基因组中有数千种不同的CRE,每种都有略微不同的作用。但CRE的语法很难弄清楚,“没有简单的规则来控制每个CRE的作用,”JAXTewhey实验室的计算科学家、新论文的共同第一作者RodrigoCastro博士解释说。“这限制了我们设计仅影响人体某些细胞类型的基因疗法的能力。”
“该项目本质上提出了这样一个问题:‘我们能学会阅读和编写这些调控元件的代码吗?’”耶鲁大学遗传学助理教授、这项研究的资深作者之一StevenReilly博士说。“如果我们从语言的角度来思考,这些元件的语法和句法就很难理解。因此,我们试图构建机器学习方法,以便学习比我们自己能学习的更复杂的代码。”
该团队利用一种名为深度学习的人工智能,利用来自人类基因组的数十万个DNA序列训练了一个模型,他们在实验室中测量了三种细胞(血液、肝脏和大脑)中的CRE活性。允许研究人员从几乎无限数量的可能组合中预测任何序列的活性。通过分析这些预测,研究人员发现了DNA中的新模式,了解了DNA中CRE序列的语法如何影响RNA的生成量。
该团队包括本文共同资深作者、布罗德研究所核心成员兼哈佛大学教授PardisSabeti博士,他们开发了一个名为CODA(DNA活性计算优化)的平台,该平台使用他们的AI模型高效设计了数千种具有所需特性的全新CRE,例如激活人类肝细胞中的特定基因,但不激活人类血液或脑细胞中的相同基因。通过“湿”和“干”研究的迭代组合,研究人员首先使用实验数据构建计算模型,然后验证计算模型,改进并提高了该程序预测每种CRE生物学影响的能力,并能够设计出自然界中从未见过的特定CRE。
“天然CRE虽然数量众多,但只占可能遗传元素的一小部分,其功能受到自然选择的限制,”该研究的共同第一作者、SagerGosai博士(Sabeti实验室的博士后研究员)说道。“这些AI工具在设计基因开关方面具有巨大潜力,可以精确调整基因表达,用于生物制造和治疗等超出进化压力范围的新应用。”
Tewhey和他的同事测试了新的人工智能设计的合成CRE,方法是将它们添加到细胞中,并测量它们在目标细胞类型中激活基因的效果,以及它们在其他细胞中避免基因表达的效果。他们发现,新的CRE甚至比已知与细胞类型相关的天然CRE更具细胞类型特异性。
“合成的CRE在语义上与天然元素相差甚远,因此对其有效性的预测似乎难以置信,”Gosai说道。“我们最初预计许多序列会在活细胞内出现异常。”
Tewhey和他的合作者研究了为什么合成的CRE能够胜过天然的CRE,并发现细胞特异性的合成CRE包含负责在目标细胞类型中表达基因的序列组合,以及抑制或关闭其他细胞类型中的基因的序列。
最后,该团队在斑马鱼和小鼠身上测试了几种合成的CRE序列,并取得了良好的结果。例如,一种CRE能够激活正在发育的斑马鱼肝脏中的荧光蛋白,但无法激活鱼的任何其他部位。
Tewhey表示:“这项技术为编写具有预定义功能的新调控元件铺平了道路。此类工具不仅对基础研究很有价值,而且可能具有重要的生物医学意义,你可以使用这些元件来控制特定细胞类型中的基因表达,以达到治疗目的。”
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。