推进基因组学和疾病研究的强大新工具
UVAHealth研究人员开发了一种重要的新工具,可帮助科学家在探索癌症和其他疾病的遗传原因时从噪音中区分信号。除了推进研究和可能加速新疗法之外,新工具还可以通过使医生更容易检测癌细胞来帮助改善癌症诊断。
由UVA的ChongzhiZang博士及其团队和合作者开发的新工具是一个数学模型,将有助于确保关于我们染色体构建块的“大数据”的完整性,遗传物质称为染色质。染色质——DNA和蛋白质的结合体——在指导我们基因的活动中起着重要作用。当染色质出错时,它可以将健康细胞变成癌症或导致其他疾病。
科学家现在可以使用称为“单细胞ATAC-seq”的尖端技术研究单个细胞内的染色质,但这会产生大量数据,包括大量噪音和偏差。Zang的新工具解决了这一问题,使科学家免于错误的线索和浪费的努力。
作为最好的时代,大规模的单细胞基因组学研究就像“大海捞针”,Zang说。但是他的新工具可以清理掉很多坏干草,从而使事情变得容易得多。
“使用传统的数据分析方法,你可能会看到一些看起来像特定染色质状态真实信号的模式,但由于实验技术本身的偏差,它们实际上是假的。这种假信号会让科学家感到困惑,”说Zang是UVA公共卫生基因组学中心和UVA健康癌症中心的计算生物学家。“我们开发了一个模型来更好地捕获和过滤掉这种虚假信号,这样我们正在寻找的真针就可以更容易地从干草中脱颖而出。”
关于基因组学工具
Zang的新工具采用了一种来自数论和密码学的模型,称为“单纯形编码”。他和他的同事用它来将DNA序列编码成数学形式,并最终将复杂的基因组序列转换成更简单的数学形式。然后,他们可以比较不同的形式,以检测序列数据中使用传统方法无法轻易发现的偏差和噪声。
“当DNA序列变长时,它们的复杂性呈指数级增长。它们很难建模,因为典型的数据集包含来自数千个细胞的数百万个序列,”Zang实验室的研究科学家ShenenShawnHu博士说。这项工作的主要作者。“但单纯形编码模型可以准确估计序列偏差,因为它具有优美的数学特性。”
该工具的测试表明,它在分析复杂的单细胞数据以表征不同细胞类型方面明显更好。这对于基础生物学研究和疾病诊断都很重要,医生必须在更大的样本(从数万到数百万个细胞)中检测出微小数量的疾病细胞。
“这些偏差不容易发现,因为它们与真实信号纠缠在一起并隐藏在大数据中。如果人们只从大量细胞中挑选最强信号,这可能没什么大不了的,”Zang说,他最近共同领导了其他几项研究冠状动脉疾病和肠道发育的单细胞基因组学研究。
“但是当你查看单细胞数据时,不再有唾手可得的果实了。信号在单个细胞水平上总是微弱的,噪声和偏差的影响可能是灾难性的。偏差校正通常被忽略,但可以在单细胞数据分析中至关重要。”
为了广泛使用他们的新工具,研究人员创建了免费的开源软件并将其发布到网上。该软件可以在GitHub上找到。
“我们希望这个工具可以使生物医学研究界在研究染色质生物学和基因组学方面受益,并最终帮助疾病研究,”Zang说。“看到我们的同行使用我们开发的工具在他们自己的研究中做出重要的科学发现,总是令人兴奋。”
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。