伊利诺伊理工学院的研究人员获得了一份价值160 万美元的合同,以开发 一个开创性的作者署名和匿名化系统。使用自然语言处理和机器学习,这个名为 AUTHOR 的程序承诺创建“风格指纹”以进行可靠的识别,同时还为匿名化提供强大的解决方案。该项目具有广泛的应用,包括反情报、打击错误信息,甚至调查古代宗教文本的起源,标志着计算分析的重大飞跃。

伊利诺伊理工大学项目获得价值160万美元的合同

该项目与 Charles River Analytics、伦斯勒理工学院、阿斯顿大学和霍华德脑科学基金会合作,已获得 1130 万美元资金池的资助,该资金池由美国大学的使用底层结构的文本人类可解释归因 (HIATUS) 计划 分配 情报高级研究计划活动 (IARPA),国家情报总监办公室内的一个研究机构。

AUTHOR(在提供以人为本的基本原理时对文本的归因和破坏归因)旨在通过自然语言处理和机器学习的复杂融合来准确捕捉作者的独特写作风格。该项目由伊利诺伊理工大学计算机 科学教授兼计算机科学系主任 Shlomo Argamon和计算机科学 Gladwin Development 主席助理教授Kai Shu领导。

“有许多不同类型的作者归属任务,”在该领域拥有超过 25 年研究经验的 Argamon 说。“一个是我们想要在不同的文本中识别出一位特定的作者。另一个是我们有一个特定的文本,我们希望将其归因于多个候选作者之一。第三种是简单地确定两篇文章何时由同一个人撰写。”

Argamon 和 Shu 还旨在解决由恶意在线活动和机器生成的错误信息引起的日益紧迫的问题。

“借助 GPT-3 等大型语言模型,可以从这些‘机器人’中生成类似人类的文本,”Shu 说。“我们的工作将探索深度生成模型和风格转移技术,以探索人类编写和机器生成文本的界限。”

该团队寻求克服的主要挑战之一是当前作者身份分析和混淆方法的局限性。考虑到不同写作形式(如私人信件、学术文章或短篇小说)之间固有的文体差异,问题部分在于当被质疑文件的类型与已知文件不同时识别作者身份。

“当测试文档的类型与训练文档不同时,当前最好的方法效果很差,”Argamon 说。“我们将开发包含这种文体领域依赖性的作者模型,以实现更普遍有效的归因。”

该项目还将解决作者混淆的挑战,在改变风格的同时保持文本的含义。该团队将深度学习与语义知识表示相结合,生成在改变风格的同时保持原有内容意义的文本。这种双重功能(属性和混淆)使 AUTHOR 有别于现有算法。

与现有系统不同,AUTHOR 将为其作者识别系统提供明确的基本原理,为项目增加另一层透明度和可靠性。