POPDx模型消除了对大型患者数据集的需求,使其有可能帮助患有罕见疾病的患者。生物库——包含遗传和健康信息的数据库——使研究人员能够探索疾病并研究遗传学和环境对疾病轨迹的贡献。

使用机器学习预测罕见病

但生物样本库的有用程度取决于其中数据的数量和质量。斯坦福大学博士生LuYang解释说,不完整的信息通常是患者数据集中的一个问题。

“例如,我们可能知道患者已经接受过II型糖尿病的治疗,”Yang说,“但如果他们从未在医院接受过住院治疗,那么‘II型糖尿病’一词可能会丢失他们的数据。”对于正在进行疾病研究和寻找可能导致新突破的模式的研究人员来说,这种缺失的信息是一个重大障碍。

为了解决这个问题,Yang与斯坦福大学博士后学生ShengWang和RussAltman合作——斯坦福大学HAI副主任兼生物工程、遗传学、医学、生物医学数据科学以及计算机科学教授——创建了一个模型,可以预测一套全面的诊断代码——也称为表型代码——适用于英国生物库中的所有患者。

该银行拥有来自英国的50万参与者的数据,其中包括罕见病患者。通过创建用于疾病识别的机器学习框架POPDx,研究团队创建了一个模型,据Yang说,该模型“产生了一个人可能患有某些疾病或表型代码的概率。”

事实上,POPDx在预测常见和罕见疾病(包括训练数据中不存在的疾病)方面优于现有模型。Altman表示,这是一个重要的发现。

“虽然大多数使用深度神经网络的机器学习方法都需要大量训练,但我们很高兴我们使用文本和分类学等先验知识的方法使我们能够识别测试集中的某些疾病,即使我们以前从未见过它们在培训中。这很重要,因为虽然医学中有大量数据,但它的规模与大型IT公司不同,因此我们开发可以处理稀疏数据的方法,并且能够很好地帮助患有罕见疾病的患者,这一点至关重要”

来自真实患者的真实数据

在着手这项研究时,杨考虑了第二作者王在细胞分类方面的先前工作。在那项研究中,Wang使用CellOntology为测试集中的所有细胞预测了一个正确的细胞类型。Yang想对POPDx采取类似的方法,但针对的是疾病。“我认为类似地利用人类疾病本体论中疾病的关系来解决疾病识别会很酷。”

Wang的研究是一个一对多的分类问题,其中只预测了一种细胞类型,而Yang需要多个标签。“每个患者都可能患有多种疾病,因此我们将其作为多标签、多分类类型的问题来处理,”她说。

杨的工作的另一个关键区别是她使用的信息的广度。POPDx模型着眼于大量患者数据,从人口统计信息和患者问卷调查到体检和EHR数据。它甚至可以从物理数据和实验室测试中提取信息。

“在此之前,大多数现有模型都需要精心策划的数据集,这意味着它们可能无法研究我们能够通过工作研究的丰富特征,​​”她说。Yang的大规模工作直接转化为该模型可以预测的广泛疾病代码。“通常研究会针对特定领域,比如心脏病,所以他们只会查看相关信息或代码。但对于我们的研究,我们试图得出英国生物样本库参与者的完整概况。”

尽管数据集很小但仍能预测疾病

POPDx模型的工作原理是寻找患者数据和疾病信息之间的关系,使用自然语言处理和人类疾病本体论做出概率决策。“该模型面临的最大挑战来自我们在训练中看不到或数据很少的疾病。正如我们所知,大多数ML模型都依赖于大型数据集,但其中一些疾病没有数据,”杨说。

POPDx在有限甚至没有数据的情况下的可靠性能非常强大,无需庞大的数据集。Yang能够将未见和罕见疾病的AUPRC(模型的精度指标)提高218%和151%。

杨说,这意味着如果临床团队需要识别低流行病患者,“我们的模型平均会增加发现这些阳性病例的可能性。以前,他们必须在生物库中检查大量患者,但现在他们可以筛选更少的患者来发现可能的病例。”POPDx识别罕见疾病的能力为希望研究这些疾病的临床医生和研究人员提供了一个更好的起点。

Yang指出的一个挑战是英国生物样本库的人口结构偏差,该样本库中女性占56%,白人占多数,平均年龄为71岁。但生物样本库缺乏多样性与其说是与数据有关,不如说是与广泛的医疗保健服务有关。

“问题在于,如果有人无法获得医疗保健,我们就没有他们的数据,”杨说。研究人员通过引入有关疾病之间的等级和关系的背景信息来解决这一问题,这在处理不熟悉的疾病时为模型提供了动力。

Yang认为,这种策略可能还为模型增加了一些随机性并减轻了偏差。Yang的希望是,未来会有更多的基础设施来实现跨多个生物样本库的数据整合,从而获得更多样化的数据集。

疾病预测的未来

展望未来,Yang对患者数据的时间序列分析很感兴趣,这不仅要考虑患病的可能性,还要考虑患者一生中可能患病的时间。

另一个可能的途径是在模型中整合表型和基因型数据,这将使研究人员对疾病有比现在更全面的认识。无论下一步是什么,Yang都致力于建立适合所有人的包容性模式。

“无论是患者还是研究人员,访问数据都是至关重要的,”杨说。