研究发现用于训练大型语言模型的数据集通常缺乏透明度

2024-09-02 09:00:39生活专一的悟空

为了训练更强大的大型语言模型，研究人员使用大量数据集，这些数据集融合了来自数千个网络来源的各种数据。但是，随着这些数据集被组合并重新组合成多个集合，有关其来源和使用限制的重要信息通常会在混乱中丢失或混淆。

这不仅引发法律和道德问题，还会损害模型的性能。例如，如果数据集被错误分类，那么为某项任务训练机器学习模型的人可能会在不知情的情况下使用并非为该任务设计的数据。

此外，来自未知来源的数据可能包含偏见，导致模型在部署时做出不公平的预测。

为了提高数据透明度，来自麻省理工学院等机构的多学科研究团队对热门托管网站上的1,800多个文本数据集进行了系统性审核。他们发现，这些数据集中有70%以上省略了一些许可信息，而约50%的信息存在错误。

基于这些见解，他们开发了一种用户友好的工具，称为数据来源浏览器，可以自动生成数据集的创建者、来源、许可证和允许用途的易于阅读的摘要。

麻省理工学院教授、麻省理工学院媒体实验室人类动力学小组负责人、该项目开放获取论文合著者亚历克斯·“桑迪”·彭特兰(Alex“Sandy”Pentland)表示：“这些类型的工具可以帮助监管者和从业者就人工智能的部署做出明智的决定，并进一步推动人工智能的负责任发展。”

数据来源浏览器可以帮助AI从业者构建更有效的模型，使他们能够选择适合其模型预期用途的训练数据集。从长远来看，这可以提高AI模型在现实世界中的准确性，例如用于评估贷款申请或响应客户查询的模型。

“了解的能力和局限性的最佳方法之一是了解它是基于哪些数据进行训练的。当你对数据来源产生错误归因和混淆时，就会出现严重的透明度问题，”麻省理工学院人类动力学小组研究生、哈佛法学院法学博士候选人、论文共同第一作者罗伯特·马哈里(RobertMahari)表示。

与Mahari和Pentland一起撰写这篇论文的还有媒体实验室的研究生ShayneLongpre，CohereforAI研究实验室负责人SaraHooker，以及麻省理工学院、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、ContextualAI、MLCommons和Tidelift的其他研究人员。

注重微调

研究人员经常使用一种称为微调的技术来提高大型语言模型的功能，该模型将用于特定任务，例如问答。为了进行微调，他们精心构建了精选数据集，旨在提高模型在这项任务上的表现。

麻省理工学院的研究人员专注于这些微调数据集，这些数据集通常由研究人员、学术组织或公司开发并获得特定用途的许可。

当众包平台将此类数据集聚合成更大的集合，供从业者进行微调时，一些原始许可信息往往会被遗忘。

“这些许可证应该很重要，而且应该具有强制执行力，”马哈里说。

例如，如果数据集的许可条款错误或缺失，有人可能会花费大量金钱和时间来开发模型，但后来他们可能会被迫放弃这个模型，因为一些训练数据包含私人信息。

“人们最终可能会训练模型，但他们甚至不了解这些模型的能力、问题或风险，而这些最终源于数据，”Longpre补充道。

在开始这项研究时，研究人员正式将数据来源定义为数据集的来源、创建和许可历史以及其特征的组合。在此基础上，他们开发了一个结构化的审计程序，以追踪来自流行在线存储库的1,800多个文本数据集集合的数据来源。

在发现其中超过70%的数据集包含“未指定”的许可证，遗漏了大量信息后，研究人员逆向寻找以填补空白。通过他们的努力，他们将“未指定”许可证的数据集数量减少到30%左右。

他们的工作还表明，正确的许可证通常比存储库分配的许可证更为严格。

此外，他们发现几乎所有数据集创建者都集中在全球北部，如果模型在不同地区部署，这可能会限制其能力。例如，一个主要由美国人和中国人创建的土耳其语数据集可能不包含任何具有文化意义的方面，Mahari解释道。

他说：“我们几乎欺骗自己，认为数据集比实际情况更加多样化。”