拉霍亚免疫学研究所 (LJI) 的科学家开发出一种新的计算方法,用于将 DNA 上的分子标记与基因活动联系起来。他们的工作可能有助于研究人员将基因与打开或关闭基因的分子“开关”联系起来。

科学家开发出新方法将基因与分子开关相匹配

这项发表在《基因组生物学》上的研究是利用机器学习方法更好地了解基因表达与疾病发展之间的联系的重要一步。

拉霍亚圣约翰学院副教授 Ferhat Ay 博士表示:“这项研究旨在从三维视角研究 DNA 修饰及其在我们基因组中的功能。”他与拉霍亚圣约翰学院教授 Anjana Rao 博士共同领导了这项研究。

Ay 和 Rao 正在努力确定基因组中含有分子增强子或“开关”的区域,这些分子增强子可以微调基因表达水平,并决定基因何时何地开启或关闭。这项工作要求研究人员开发能够利用复杂基因组数据并找出哪些增强子与哪些基因相关的计算工具。

在这项新研究中,LJI 的研究人员采用了称为线性和图形神经网络的机器学习工具来处理基因组数据并建立这些联系。神经网络是模仿大脑神经元处理信息和识别模式的计算工具。图形神经网络能够整合 3D 信息,例如细胞内的 DNA 物理相互作用。

Edahí González-Avalos 博士是加州大学圣地亚哥分校研究生,在拉霍和 Ay 的共同指导下率先开发了这种图形神经网络。“我们可以利用它来确定基因组内 DNA 相互作用的优先级,”目前在 Guardant Health 工作的 González-Avalos 说。

神经网络开始工作

研究人员训练了新的神经网络,使其了解一种名为 5hmC 的重要 DNA 修饰(无论是靠近基因还是远离基因)的存在与基因表达活性之间的关系。这种羟甲基基团与胞嘧啶的附着与增强子活性有关。

事实上,5hmC 似乎对基因表达具有如此重要的影响,以至于科学家将 5hmC 称为 DNA 字母表中的“第六个字母”,与 A、T、C、G 和中间甲基化形式 5mC(第五个碱基)并列。胞嘧啶上 5mC 转化为 5hmC 与增强子活性有关——5hmC 越多,增强子活性水平越高。

在之前的研究中,Rao 实验室的研究人员发现,5hmC 在基因组中的位置会根据他们观察的细胞类型以及这些细胞类型表达的基因而变化。实际的 DNA 代码是相同的,但 5hmC 在肝细胞、肺细胞或脑细胞中附着在基因组上的位置不同。

这种 5hmC 分布控制着不同类型细胞中不同基因组的表达。研究人员发现,5hmC 附着在基因组中起增强子作用的区域(这些区域有助于打开和关闭基因表达)以及基因本身。这些活性基因和增强子的差异是肝细胞与肺细胞或脑神经元的区别所在。

“5hmC 的分布因细胞类型而异,”Rao 说。“如果你能知道 5hmC 在哪里,你就能推断出你正在研究的 DNA 是由哪种细胞产生的。”例如,如果一个细胞是癌细胞,你可以推断出它是哪种类型的癌症,即使它已经转移(远离)了体内的原始位置。

与以前的方法相比,新的研究方法可以更简单地建立基因和增强子之间的联系。

González-Avalos 说:“这篇论文是一个概念验证,表明我们可以使用这些图神经网络来预测使用 5hmC 的基因和增强子之间的相互作用。”

Ay 表示,他很高兴看到神经网络揭示了基因与基因组远处 5hmC 之间的联系。这些跨基因组的长距离连接有助于优先考虑能够增强基因表达的区域。

“令人兴奋的是,其中一些远距离增强子是以前从未发现过的新型调控元件,”Ay 说。

展望未来,研究人员希望更深入地研究 5hmC 的分布,以更好地了解人类细胞中增强子和基因的相互作用。“这项研究是使用小鼠细胞的数据进行的,”Ay 说。“接下来,我们想研究 5hmC 及其在患者免疫细胞和癌细胞中的相互作用。”

希望有更好的癌症诊断方法

就像在正常细胞中一样,5hmC 的分布在癌细胞类型之间也有所不同。这意味着新的 LJI 方法可能对理解驱动癌症发展的遗传机制很有价值。

拉奥表示,新方法还可以实现更快、更准确的癌症诊断。

目前,科学家很难通过血液样本分析来发现体内是否存在实体肿瘤。“实体肿瘤细胞通常不会出现在血液中。血液中存在的是 DNA,而且通常是部分降解的 DNA,”Rao 说道。

正如 Rao 所解释的那样,如果医生能够超越 DNA 本身,分析 5hmC 的分布,他们就可以帮助更多的患者,并可能更早地发现癌症。

在科学家拥有这种癌症检测工具之前,还需要做更多的工作,但 Ay 表示,这项新研究展示了将实验数据与新计算方法相结合的强大功能。“这表明,通过应用我们的新方法,我们可以识别新的和未注释的远距离增强子,”Ay 说。