自 1995 年第一个微生物基因组测序以来,科学家们已经重建了数十万种微生物的基因组构成,甚至设计了对皮肤、肠道、土壤、水和其他地方的细菌群落进行普查的方法。大量样本的研究,导致了一个相对较新的研究领域的出现,称为宏基因组学。

工程师开发创新的微生物组分析软件工具

解析宏基因组数据可能是一项艰巨的任务,就像试图将所有碎片拼凑在一起的几个巨大的拼图游戏一样。面对这一独特的计算挑战,莱斯大学图人工智能 (AI) 专家 Santiago Segarra 和计算生物学家 Todd Treangen 联手探索人工智能驱动的数据分析如何帮助打造新工具来增强宏基因组学研究。

科学家二人组专注于两种使宏基因组分析特别具有挑战性的数据——重复和结构变异——并开发了处理这些数据类型的工具,其性能优于当前的方法。

重复是指在单个生物体的基因组中和生物体群落的多个基因组中重复出现的相同 DNA 序列。

“来自多种生物体的宏基因组样本中的 DNA 可以用图表表示,”电气和计算机工程助理教授 Segarra 说。

“本质上,我们开发的工具之一利用了该图的结构,以确定哪些 DNA 片段在微生物之间或同一微生物内重复出现。”

该方法被称为 GraSSRep,它结合了自我监督学习(一种机器学习过程,其中训练自身以区分隐藏输入和可用输入)和图形神经网络(处理表示对象及其互连的数据作为图形的系统)。

该论文在计算分子生物学研究年度国际会议RECOMB 2024第 28 届会议上发表,也可在arXiv预印本服务器上获取。该项目由莱斯大学研究生兼研究助理 Ali Azizpour 领导。莱斯大学博士校友阿德瓦伊特·巴拉吉 (Advait Balaji) 也是该研究的作者之一。

重复之所以令人感兴趣,是因为它们在生物过程中发挥着重要作用,例如细菌对其环境变化的反应或微生物组与宿主生物体的相互作用。重复可以发挥作用的现象的一个具体例子是抗生素耐药性。

一般来说,追踪细菌基因组中重复序列的历史或动态可以揭示微生物的适应或进化策略。更重要的是,重复序列有时实际上可能是伪装的病毒或噬菌体。噬菌体源自希腊语,意为“吞噬”,有时被用来杀死细菌。

计算机科学副教授特雷根说:“这些噬菌体实际上看起来像重复序列,因此你可以根据基因组中包含的重复序列来追踪细菌-噬菌体动态。”

“这可以为如何消除难以杀死的细菌提供线索,或者更清晰地描绘出这些病毒如何与细菌群落相互作用。”

以前,当使用基于图形的方法进行重复检测时,研究人员使用预定义的规范来确定在图形数据中查找的内容。 GraSSRep 与这些先前方法的区别在于缺乏任何此类预定义参数或参考来告知如何处理数据。

“我们的方法学习如何更好地使用图形结构来检测重复,而不是依赖初始输入,”Segarra 说。 “自我监督学习允许这个工具在没有任何基本事实的情况下进行自我训练,以确定什么是重复,什么不是重复。当你处理宏基因组样本时,你不需要知道任何有关其中内容的信息。在那里进行分析。”

Segarra 和 Treangen 共同开发的另一种宏基因组分析方法也是如此,即通过长读共装配图(Rhea)对微生物组进行无参考结构变异检测。他们关于土卫五的论文将于 7 月 12 日至 16 日在蒙特利尔举行的国际计算生物学学会年会上发表。

该论文的主要作者是莱斯大学计算机科学博士生 Kristen Curry,她将加入巴黎巴斯德研究所 Rayan Chikhi(也是该论文的合著者)的实验室,担任博士后科学家。该论文的一个版本可在bioRxiv预印本服务器上获取。

GraSSRep 旨在处理重复,而 Rhea 则处理结构变异,即 10 个或更多碱基对的基因组改变,由于它们在各种疾病、基因表达调控、进化动力学和促进遗传多样性中的作用,因此与医学和分子生物学相关种群内和物种间。

Treangen 说:“识别分离基因组中的结构变异相对简单,但在没有明确的参考基因组来帮助对数据进行分类的宏基因组中,这样做就更困难了。”

目前广泛使用的处理宏基因组数据的方法之一是通过宏基因组组装的基因组或 MAG。

Segarra 说:“这些从头或参考引导的组装程序是相当完善的工具,需要整个操作流程,重复检测或结构变体识别只是其部分功能。”

“我们正在研究的一件事是用我们的算法替换现有算法,看看如何提高这些广泛使用的宏基因组组装器的性能。”

Rhea 不需要参考基因组或 MAG 来检测结构变异,并且在针对两个模拟宏基因组进行测试时,它的性能优于依赖此类预先指定参数的方法。

“这一点特别引人注目,因为与使用参考基因​​组相比,我们获得了更精细的数据读取,”Segarra 说。

“我们目前正在研究的另一件事是将该工具应用于现实世界的数据集,看看结果如何与生物过程相关,以及这可能会给我们带来什么见解。”

Treangen 表示,GraSSRep 和 rhea 的结合——基于之前在该领域的贡献——有潜力“解开控制微生物进化的生命的基本规则”。

这些项目是 Segarra 和 Treangen 实验室多年合作的成果。

Treangen 说:“这是跨不同专业领域进行多年合作研究的产物,这使我们的学生 Ali 和 Kristen 能够挑战现有的范式,并开发解决宏基因组学中现有问题的新方法。”