根据周四发布的一项研究,为聊天机器人和其他应用程序提供支持的仍然难以区分废话和自然语言。

研究称很难识别无意义的内容

美国哥伦比亚大学的研究人员表示,他们的工作揭示了当前的局限性,并表明现在让它们在法律或医疗环境中发挥作用还为时过早。

他们对九个进行了测试,向它们发射了数百对句子,并询问哪些句子可能会在日常对话中听到。

他们要求100个人对以下几对句子做出相同的判断:“买家也可以拥有一件正品/一个我漫步的高中周围的人。”

这项研究发表在《自然机器智能》杂志上,然后将人工智能的答案与人类的答案进行了权衡,发现了巨大的差异。

像GPT-2这样的复杂模型(为病毒式聊天机器人ChatGPT提供支持的模型的早期版本)通常与人类的答案相匹配。

其他更简单的模型表现较差。

但研究人员强调,所有模型都会犯错误。

该报告的作者之一、心理学教授克里斯托弗·巴尔达萨诺(ChristopherBaldassano)表示:“每个模型都存在盲点,将一些句子标记为有意义,而人类参与者认为这些句子是胡言乱语。”

“这应该让我们对人工智能系统在多大程度上做出重要决策犹豫不决,至少现在是这样。”

该论文的另一位作者塔尔戈兰告诉法新社,这些模型是“一项令人兴奋的技术,可以极大地补充人类生产力”。

然而,他认为“让这些模型取代法律、医学或学生评估等领域的人类决策可能还为时过早”。

他说,其中的陷阱之一是人们可能故意利用盲点来操纵模型。

去年,随着ChatGPT的发布,突然进入公众视野,该模型因通过了各种考试而受到赞誉,并被吹捧为医生、律师和其他专业人士的潜在助手。