来自能源部橡树岭国家实验室和路易斯安那州立大学的研究人员与美国国家癌症研究所(NCI)合作,开发了一种长序列AI转换器,能够处理数百万份病理报告,为研究癌症诊断和管理的专家提供指数级更多信息。有关癌症报告的准确信息。

研究人员开发人工智能驱动的工具用于近实时癌症监测

计算科学研究科学家MayankaChandraShekar表示:“我们的目标是尝试看看是否可以自动从这些病理报告中提取特定癌症部位信息,并将其转化为国家级癌症发病率报告的结构化数据。”和橡树岭国家实验室的工程部门。

该团队的工作最近发表在《临床癌症信息学》上。

AITransformer模型接受大量数据的训练,并将其“转换”为对科学家有用且易于理解的信息。在橡树岭领导力计算峰会超级计算机上使用安全的CITADEL框架,在Exascale计算项目和使用监视数据和可扩展人工智能治疗癌症的建模结果(MOSSAIC)项目的支持下,ORNL的研究人员使用专门的变压器模型来处理2.7万份癌症病理报告。该模型称为Path-BigBird,从六个监测、流行病学和最终结果或SEER癌症登记处提取数据。

NCI的SEER计划是美国癌症发病率和生存率信息的权威来源。SEER目前从覆盖约48%的美国人口的基于人群的癌症登记处收集并发布癌症发病率和生存数据。

“我们想要建立一个语言模型,我们可以问,‘我们能否建立一些能够理解病理学语言的东西,并帮助我们创建预测模型或信息提取模型,基本上可以从其中提取癌症部位、亚部位和其他关键细节。病理报告?”钱德拉谢卡说。

目前,这些癌症登记处都是手工更新的,癌症发病率和报告之间存在两年的差距,这意味着如果全国范围内癌症发病率有所上升,研究人员必须等待两年才能认识到这一令人担忧的领域。

通过有效处理数百万份病理报告中的信息,Path-BigBird有潜力提高病理信息提取的速度和准确性,并超越传统的深度学习方法来收集重要信息,例如识别癌症部位、组织学并提高癌症的精确度人口层面的发病率报告。

“我们当前部署的深度学习模型已自动编码了癌症登记处处理的约23%的报告,为研究人员寻求近乎实时的癌症报告节省了宝贵的时间,”Chandrashekar说。她补充说,这一进步为创建全面的模型病理学语言打开了大门,该语言可以比以往更快地成功执行任务。

“这种模型的使用打开了一个全新的世界,”钱德拉谢卡说。“我们可以使用相同的模型来提取生物标志物和其他复发性癌症问题,因为现在它能够理解病理学特定的语言。我们可以将其扩展到我们开始的重点之外,”她补充道。

当团队意识到需要更广泛的语言才能更准确地运行时,研究的转折点出现了。通过将更多的临床语言与病理报告结合起来,钱德拉谢卡和她的团队看到了准确性和性能的显着提高。

“这让我们有一个空间去理解,有限的词汇量可能会限制我们理解某些任务中行为的细微差别,”钱德拉谢卡说。“与此同时,包含更多词汇将创建一个更好的模型来执行正常任务以及更困难的任务。”

中包含的包容性语言反映了该团队聚集了广泛的研究人员,他们花了两年的时间致力于这个项目。

Chandrashekar补充道:“我们的团队包括来自自然语言处理专家、高性能计算科学家和流行病学家的人员,因此我们是一群完全跨学科的团队,我们必须了解‘所要求的是什么以及我们能否大规模安全地运行它’”?’”

研究人员测试了Path-BigBird模型的基本信息提取任务。他们从BERT和GPT等流行模型中了解到Transformer模型的潜力,希望能够扩展和适应对人口健康有用的下游任务,例如实体识别、基本文本的位置和问答系统。Path-BigBird模型也可能成为一个转折点,因为它可以让人们更清楚地了解癌症趋势并促进对高危社区的公共卫生干预。

Chandrashekar表示,该团队的注意力现在已经转移到实施模型要完成的新任务上,例如识别生物标志物、癌症复发率和癌症发病率报告的其他方面。

“我们正在尝试看看是否可以使用不需要经过大量培训的类似模型,并看看如何将其扩展到这些领域,”她说。“考虑到行业构建大型语言模型的速度,我们正在尝试了解如何利用这些知识来看看我们是否可以将现有模型用于我们的特定用例。”

Chandrashekar和她的团队在Path-BigBird模型上所做的工作是由HeidiHanson和LynnePenberthy领导的MOSSAIC项目的一部分,该项目是能源部和NCI之间的合作项目。