华盛顿大学圣路易斯分校研究人员开展的一项新跨学科研究发现了人类行为与人工智能交叉领域中一种意想不到的心理现象:当被告知正在训练人工智能玩讨价还价游戏时,参与者会主动调整自己的行为以显得更加公平公正,这种冲动可能对现实世界的人工智能开发者产生重要影响。

人类在训练人工智能时会改变自己的行为

“参与者似乎有动机训练人工智能实现公平,这令人鼓舞,但其他人可能有不同的目的,”计算和数据科学系博士生、这项研究的主要作者劳伦·特雷曼 (Lauren Treiman) 表示。“开发人员应该知道,当人们知道它将被用于训练人工智能时,他们会有意改变自己的行为。”

这项研究发表在《美国国家科学院院刊》上。合著者是艺术与科学学院心理和脑科学助理教授 Wouter Kool和麦凯维工程学院计算机科学与工程助理教授 Chien-Ju Ho。Kool 和 Ho 是 Treiman 的研究生导师。

这项研究包括五项实验,每项实验大约有 200-300 名参与者。受试者被要求玩“最后通牒游戏”,这是一项挑战,要求他们与其他人类玩家或计算机协商小额现金支付(仅 1 至 6 美元)。在某些情况下,他们被告知他们的决定将被用来教人工智能机器人如何玩游戏。

那些认为自己在训练人工智能的玩家更有可能寻求公平的回报份额,即使这种公平会让他们损失一些钱。有趣的是,即使他们被告知他们的决定不再用于训练人工智能,这种行为变化仍然持续存在,这表明塑造技术的经历对决策产生了持久的影响。

“作为认知科学家,我们对习惯的养成很感兴趣,”库尔说。“这是一个很酷的例子,因为即使不再需要这种行为,它仍会继续下去。”

不过,这种行为背后的动机尚不完全清楚。研究人员没有询问具体的动机和策略,库尔解释说,参与者可能没有感受到让人工智能更符合道德的强烈义务。他说,实验可能只是激发了他们拒绝看似不公平的提议的自然倾向。

“他们可能并没有真正考虑未来的后果,”他说。“他们可能只是想走捷径。”

研究人类行为与机器学习算法之间关系的计算机科学家何先生表示:“这项研究强调了人工智能训练中人为因素的重要性。许多人工智能训练都是基于人类的决策。如果在人工智能训练过程中不考虑人类的偏见,那么最终的人工智能也会有偏见。过去几年,我们看到很多问题都是由人工智能训练和部署之间的这种不匹配引起的。”

例如,一些面部识别软件在识别有色人种方面不太准确,何说。“部分原因是用于训练人工智能的数据存在偏见和不具代表性,”他说。

特雷曼目前正在进行后续实验,以更好地了解人们训练人工智能的动机和策略。“考虑计算机科学的心理方面非常重要,”她说。