深度学习——一种能够通过有限的用户输入自我改进的人工智能形式——自2010年代初期出现以来,已经从根本上重塑了生物医学研究的格局。它在基因组学领域尤其具有影响力,基因组学是一个生物学领域,研究我们的DNA如何组织成基因以及这些基因如何在单个细胞中激活或失活。

EUGENe简介一款易于使用的深度学习基因组学软件

尽管存在这种协同作用,但想要采用该技术的基因组学研究人员经常面临分析大量密集数据所需的实际编码的挑战。

现在,加州大学圣地亚哥分校的研究人员通过创建一个新的深度学习平台简化了科学家的这项任务,该平台可以快速轻松地适应各种不同的基因组学项目。2023年11月16日发表在《自然计算科学》上的一项研究详细介绍了新开发的软件,名为EUGENe。

加州大学圣地亚哥分校医学系副教授HannahCarter博士解释说:“我们的每个细胞都具有相同的DNA,但DNA的表达方式会改变我们细胞的外观和功能。”医学。

“深度学习可以为驱动这种多样性的生物机制提供有价值的见解,但对于没有广泛计算机科学专业知识的研究人员来说,实施它可能具有挑战性。我们希望创建一个平台,可以帮助基因组学研究人员简化他们的深度学习数据分析以做出预测来自原始数据。”

虽然编码特定蛋白质的基因仅占我们总基因组的2%左右,但其余98%的DNA序列(通常被称为功能未知的“垃圾”DNA)在确定何时、何地以及如何进行方面发挥着至关重要的作用。某些基因被激活。揭示基因组这些非编码区域的功能是基因组学研究人员的长期目标,而深度学习已被证明是实现这一目标的强大工具——至少当研究人员能够弄清楚如何使用它时。

“许多现有平台需要大量时间的编码和数据整理才能使用,”第一作者AdamKlie博士说。卡特实验室的学生。“大多数项目都要求研究人员从头开始,这需要专业知识,但并非所有对这些东西感兴趣的实验室都能获得这些专业知识。”

克莱设计了新软件来解决他在自己的工作中面临的计算挑战。

“使用EUGENe,你给算法一个DNA序列,并要求它对你期望DNA可以预测的任何内容进行预测,例如特定的DNA序列是否具有功能,或者它是否在特定的生物环境中调节基因,”克莱说道。

“这让你可以探索DNA序列的特性,并询问如果我在这里修改这一段或将这一段移到那里会发生什么。这对于研究涉及许多不同序列的复杂遗传疾病的研究人员尤其重要。”

研究人员通过尝试重现利用几种不同类型的测序数据的三项现有基因组学研究的结果来测试EUGENe。通常,分析这些不同类型的数据需要混合和匹配多个技术平台。然而,EUGENe被证明具有足够的适应性来重现每项研究的结果。

“能够重现结果在所有科学研究中都至关重要,但在使用深度学习的基因组学研究中可能非常困难,”卡特说。

“EUGENe已经在对不同类型DNA测序数据的适应性以及支持许多不同的深度学习模型方面表现出了很大的希望。我们希望它将发展成为一个能够支持研究界和社区协作工具开发的平台,加速基因组学研究。”

虽然当前版本的EUGENe适用于多种类型的基因组数据,但研究人员正在努力扩大其范围,以包括更广泛的数据类型,例如单细胞测序数据,它着眼于单个细胞的基因组,而不是单个细胞的基因组。在整个组织中。他们还计划向世界各地的研究小组提供EUGENe。

卡特说:“这个项目令人兴奋的事情之一是,使用该平台的人越多,随着时间的推移,我们就能做得越好,随着深度学习继续快速发展,这一点至关重要。”“我们希望我们的平台能为这一领域的研究人员打开许多大门,帮助他们回答有关我们所有人体内复杂分子机制的新问题。”

该研究的共同作者包括:加州大学圣地亚哥分校的DavidLaub、JamesV.Talwar、JoeJ.Solvason和EmmaK.Farley、DanielLand高中的HaydenStites和华盛顿大学的TobiasJores。