用于识别单细胞中的细胞类型的GPT-4匹配甚至有时优于专家方法
GPT-4可以准确地解释对单细胞RNA测序分析很重要的细胞类型(这是解释细胞类型的基础测序过程),与人类基因信息专家耗时的手动注释具有高度一致性。在哥伦比亚大学梅尔曼公共卫生学院学习。研究结果发表在《自然方法》杂志上。
GPT-4是一种专为语音理解和生成而设计的大型语言模型。经过对多种组织和细胞类型的评估,GPT-4证明了生成细胞类型注释的能力,该注释与人类专家的手动注释紧密结合,并超越了现有的自动算法。
此功能有可能显着减少注释细胞类型所需的工作量和专业知识,而该过程可能需要数月时间。此外,研究人员还开发了R软件包GPTCelltype,以方便使用GPT-4对细胞类型进行自动注释。
“注释单个细胞的细胞类型的过程通常非常耗时,需要人类专家比较跨细胞簇的基因,”哥伦比亚梅尔曼学院生物统计学助理教授侯文品博士说。
“虽然自动化细胞类型注释方法已经开发出来,但解释科学数据的手动方法仍然被广泛使用,这个过程可能需要数周到数月的时间。我们假设GPT-4可以准确地注释细胞类型,将这一过程从手动转变为自动化。半自动化甚至全自动程序,并且具有成本效益且无缝。”
研究人员在涵盖五个物种、数百种组织和细胞类型的10个数据集中评估了GPT-4的性能,其中包括正常样本和癌症样本。使用研究人员开发的软件工具GPTCelltype查询GPT-4。出于竞争目的,他们还评估了其他GPT版本和手动方法作为参考工具。
作为第一步,研究人员首先探讨了可能影响GPT-4注释准确性的各种因素。他们发现,GPT-4在使用前10个不同基因时表现最佳,并且在各种提示策略中表现出相似的准确性,包括基本提示策略、包含推理步骤的思想链启发策略和重复提示策略。在大多数研究和组织中,GPT-4与超过75%的细胞类型的手动分析相匹配,证明了其在生成可与专家进行比较的细胞类型注释方面的能力。
此外,在某些细胞类型中,GPT-4与手动注释之间的低一致性并不一定意味着GPT-4的注释不正确。在基质或结缔组织细胞的示例中,GPT-4提供了更准确的细胞类型注释。GPT-4的速度也明显更快。
侯和她的同事还评估了GPT-4在复杂真实数据场景中的鲁棒性,发现GPT-4可以以93%的准确率区分纯细胞类型和混合细胞类型,以99%的准确率区分已知和未知细胞类型。他们使用先前的模拟研究评估了重现GPT-4方法的性能。GPT-4在85%的情况下为相同的标记基因生成相同的符号。
“所有这些结果都证明了GPT-4在各种情况下的稳健性,”侯说。
侯表示,虽然GPT-4超越了现有方法,但仍存在需要考虑的局限性,包括验证GPT-4质量和可靠性的挑战,因为它几乎没有透露其训练过程。
“由于我们的研究重点是GPT-4的标准版本,微调GPT-4可以进一步提高细胞类型注释性能,”Hou说。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。