下一代癌症策略依赖于下一代基因测序 (NGS),这为检测突变和确定患者治疗的新技术和工具铺平了道路。一组中国研究人员提出了一种更有效的策略来过滤假阳性结果,从而提高了癌症诊断和治疗的准确性和效率。

马尼托巴大学神经学家因MS研究创新获得Barancik奖

研究团队提出了 DeepFilter,这是一种基于深度学习的过滤器,用于去除 NGS 数据中体细胞变异的误报。

他们的研究发表于 2023 年 1 月 6 日的《清华科技》。

发现体细胞突变或正常组织的改变是了解人类基因组致命遗传疾病(如癌症)的关键。下一代基因测序通过采用将 DNA/RNA 分成多个片段并并行识别序列的技术,同时产生数千或数百万个序列,从而加快了对体细胞突变的搜索。该技术提高了准确性,同时降低了测序成本和时间。

强大的“调用工具”梳理 NGS 数据并通过将序列与来自同一个体相关组织的参考基因组进行比较来追踪肿瘤或其他突变。

VarDict 是临床研究中常用的体细胞变异识别工具。先前的研究表明,与类似的调用工具相比,VarDict 可实现更高的准确率并检测到更多的真实变体。然而,VarDict 也产生了比其他调用者更多的误报,这可能会扭曲结果。

山东大学的研究作者尹泽坤说:“在一个拥有 30 亿个位置的基因组中,1:10,000 的错误率会导致许多错误调用,这可能会导致临床诊断不准确。” “然而,过滤真阳性也可能导致漏诊。”

通常情况下,研究人员会手动过滤掉一些误报——中国研究团队着手减轻这一繁重、昂贵的过程。

“如果我们提供一种自动方法来有效过滤掉大部分误报,那将节省大量时间和金钱,”来自山东大学的研究作者张浩说。

受最近成功整合基于机器学习的方法从 NGS 数据中调用遗传变异的启发,中国研究团队引入了基于深度学习的变异过滤器。该过滤器被称为 DeepFilter,旨在有效筛选 VarDict 生成的误报变体,同时确保高调用灵敏度。

DeepFilter 将区分变体是真还是假的任务视为二元分类问题。研究人员使用三种类型的数据集来训练和测试 DeepFilter:真实世界的肿瘤-正常样本数据、两种黄金标准数据的混合以及合成数据。

基于合成和真实世界 NGS 数据的实验结果很有希望:

“DeepFilter 在假阳性变异过滤任务方面优于其他过滤器,这使得 VarDict 在实际临床研究中更具价值,并极大地促进了生物学研究和患者治疗中的下游分析,”张说。

该团队计划深入研究假阳性变异过滤问题,专门研究正负样本不平衡问题,并结合其他机器学习和深度学习方法进行过滤。

“我们的最终目标是解决变异调用的运行效率和准确性问题,并提供最先进的变异检测工具,”尹说。

这项工作得到了国家自然科学基金、深圳市基础研究基金、山东省联合基金重点项目、山东省自然科学基金和教育部数字媒体技术工程研究中心的支持。

其他贡献者包括中国科学院的 Yanjie Wei、约翰内斯古腾堡大学的 Bertil Schmidt 和山东大学的 Weiguo Liu。