用于识别单细胞中的细胞类型的GPT-4匹配甚至有时优于专家方法

2024-03-26 09:06:36生活专一的悟空

GPT-4可以准确地解释对单细胞RNA测序分析很重要的细胞类型(这是解释细胞类型的基础测序过程)，与人类基因信息专家耗时的手动注释具有高度一致性。在哥伦比亚大学梅尔曼公共卫生学院学习。研究结果发表在《自然方法》杂志上。

GPT-4是一种专为语音理解和生成而设计的大型语言模型。经过对多种组织和细胞类型的评估，GPT-4证明了生成细胞类型注释的能力，该注释与人类专家的手动注释紧密结合，并超越了现有的自动算法。

此功能有可能显着减少注释细胞类型所需的工作量和专业知识，而该过程可能需要数月时间。此外，研究人员还开发了R软件包GPTCelltype，以方便使用GPT-4对细胞类型进行自动注释。

“注释单个细胞的细胞类型的过程通常非常耗时，需要人类专家比较跨细胞簇的基因，”哥伦比亚梅尔曼学院生物统计学助理教授侯文品博士说。

“虽然自动化细胞类型注释方法已经开发出来，但解释科学数据的手动方法仍然被广泛使用，这个过程可能需要数周到数月的时间。我们假设GPT-4可以准确地注释细胞类型，将这一过程从手动转变为自动化。半自动化甚至全自动程序，并且具有成本效益且无缝。”

研究人员在涵盖五个物种、数百种组织和细胞类型的10个数据集中评估了GPT-4的性能，其中包括正常样本和癌症样本。使用研究人员开发的软件工具GPTCelltype查询GPT-4。出于竞争目的，他们还评估了其他GPT版本和手动方法作为参考工具。

作为第一步，研究人员首先探讨了可能影响GPT-4注释准确性的各种因素。他们发现，GPT-4在使用前10个不同基因时表现最佳，并且在各种提示策略中表现出相似的准确性，包括基本提示策略、包含推理步骤的思想链启发策略和重复提示策略。在大多数研究和组织中，GPT-4与超过75%的细胞类型的手动分析相匹配，证明了其在生成可与专家进行比较的细胞类型注释方面的能力。

此外，在某些细胞类型中，GPT-4与手动注释之间的低一致性并不一定意味着GPT-4的注释不正确。在基质或结缔组织细胞的示例中，GPT-4提供了更准确的细胞类型注释。GPT-4的速度也明显更快。

侯和她的同事还评估了GPT-4在复杂真实数据场景中的鲁棒性，发现GPT-4可以以93%的准确率区分纯细胞类型和混合细胞类型，以99%的准确率区分已知和未知细胞类型。他们使用先前的模拟研究评估了重现GPT-4方法的性能。GPT-4在85%的情况下为相同的标记基因生成相同的符号。

“所有这些结果都证明了GPT-4在各种情况下的稳健性，”侯说。

侯表示，虽然GPT-4超越了现有方法，但仍存在需要考虑的局限性，包括验证GPT-4质量和可靠性的挑战，因为它几乎没有透露其训练过程。

“由于我们的研究重点是GPT-4的标准版本，微调GPT-4可以进一步提高细胞类型注释性能，”Hou说。