自物种理论起源以来,DNA测序对生物学的改变是前所未有的。特别是,我们研究微生物生命的方式发生了根本性的变化。今天,我们能够以前所未有的速度和分辨率对DNA进行测序,因此我们甚至能够对以前从未被描述或培养过的微生物的基因组进行测序。与此同时,对已知(最具致病性)物种进行全基因组测序,已成为全球范围内日常工作的常规方法。

散列法补充了基于比对的细菌基因组注释方法

这反过来又不断增加公开存储序列的数量,这些序列同时成为宝库和障碍。对于许多基于序列的计算分析,全面而彻底的基因组注释作为共同的起点起着至关重要的作用。很长一段时间以来,这一直被认为是一个已解决的问题。

但是,每天都有新的基因组和基因序列涌入公共数据库,这给微生物基因组的快速注释带来了新问题。特别是,寻找相似或相同的蛋白质编码基因已经成为一个大规模的生物信息学搜索问题,就像大海捞针一样——如今大海捞针大得惊人。

在这种情况下,我们面临着两种截然不同的发展。一方面,公共数据库充斥着相似和几乎相同的蛋白质序列。例如,这些包括最相关的那些,如抗菌素耐药基因和毒力因子——可以与来自许多公共数据库的大量有用信息交叉链接的序列。另一方面,宏基因组项目对通常被称为微生物暗物质的测序产生了无数新序列。然而,对于这些序列中的许多,根本没有额外的信息可用。

这种情况产生了两个截然不同的生物信息学挑战:首先,已知序列的准确识别,其次,稀有甚至未知序列的功能描述——都在数亿个数量级。为了应对这些挑战,我们尝试了一种无比对的蛋白质序列哈希策略以及两个分层序列比对步骤作为解决此问题的新方法。我们的工作发表在微生物基因组学杂志上。

为了准确识别已知的蛋白质序列,我们使用了一个哈希函数,将任意长度的输入数据映射到固定大小的二进制指纹。由于一个重要特性,这些哈希函数因所谓的校验和计算而广为人知:它们的计算速度极快,比传统的序列比对快得多。

为了利用这一点,我们创建了一个紧凑的本地数据库,其中包含超过2.2亿个蛋白质序列的哈希指纹。在第二步中,我们预先分配了高质量的注释和交叉链接到更多的外部数据库。值得注意的是,这些要求很高的大规模计算只需要在我们定期对新版本进行的数据库编译步骤中进行一次。对于实际的基因组注释过程,我们可以在运行时使用这种密集的信息存储,从而实现精确的序列识别和相关信息的超快速查找。

我们还将整体存储需求减少到三分之一,即使包括额外的丰富注释信息,如基因符号、EC编号、GO术语、蛋白质产品和外部数据库登录。此信息是将手头序列与存储在公共数据库中的相关序列联系起来的宝贵资源。

有趣的是,这种无比对方法还有助于大大避免计算量大的比对,后者作为对未识别序列的回退搜索策略。在分层两步过程中,通过针对蛋白质簇代表序列的传统序列比对搜索剩余的蛋白质序列。首先,对超过9900万个致密蛋白质簇进行匹配筛选,然后使用更宽松的阈值筛选超过1300万个更宽的簇进行第二次搜索。

所描述的无对齐序列识别方法减轻了这些巨大蛋白质簇数据库的潜在负面运行时影响。最后,将已识别蛋白质序列和相关簇的所有注释信息组合在一起,使特定信息优先于更一般的信息。