研究人员使语言模型成为可扩展的自学者
苏格拉底曾经说过:“真正重要的不是事物的大小,而是它的质量。因为它就像物质,而不是它的体积,才能找到真正的价值。”
但尺寸总是重要的吗?这是一个发人深省的问题。在被大型语言模型占据中心舞台的技术领域,麻省理工学院CSAIL研究人员认为不应忽视较小的模型,尤其是对于行业中广泛部署的自然语言标准产品。
为此,他们制定了一种方法来解决与基于文本的大型AI模型相关的长期存在的低效和隐私问题。
一种逻辑感知模型,在某些没有人工生成的注释的语言理解任务上比同类模型大500倍,同时以高性能保持隐私和稳健性。
大型语言模型在生成语言、艺术和代码方面显示出一些有前途的技能,但计算成本很高,而且在使用API进行数据上传时,它们的数据要求可能会面临隐私泄露的风险。
与较大的模型相比,较小的模型历来能力较弱,尤其是在多任务处理和弱监督任务方面。
小语言模型的力量
那么是什么帮助这些较小的模型表现得如此强大呢?一种叫做“文本蕴含”的方法,可以帮助这些模型理解各种语言任务,如果一个句子(前提)为真,那么另一个句子(假设)也可能为真。
例如,如果前提是“所有的猫都有尾巴”,那么假设“一只虎斑猫有尾巴”将被该前提所蕴涵。
这个概念被用来训练一个“蕴含模型”,该模型在团队之前的研究中被证明比其他语言模型的偏见更小。然后,他们创建了“提示”,模型可以根据不同的任务使用这些提示来确定给定的句子或短语是否包含某些信息。
这种称为零样本适应的方法提高了模型适应不同任务的能力,而无需任何额外训练。
在“自然语言理解”领域,各种应用都取决于确定两段文本之间的关系。例如,在情感分类中,可以从电影评论中推断出“我认为这部电影很好”这样的陈述,“我喜欢这个故事,表演也很棒”,表示积极的情感。
另一个是新闻分类,新闻文章的主题可以从其内容中推断出来。例如,如果文章的主要内容是关于NBA比赛的报道,则文章可以包含“ThenewsarticleisaboutSports”这样的陈述。
关键的见解是,许多现有的自然语言理解任务可以重铸为蕴含(即自然语言中的逻辑推理)任务。
“我们的研究是关于提高计算机程序理解和处理自然语言的能力——人类说话和写作的方式。我们的自我训练的350M参数蕴含模型,没有人工生成的标签,优于具有137到1750亿个参数的监督语言模型,”主要作者麻省理工学院CSAIL博士后助理HongyinLuo说。
“这有可能重塑人工智能和机器学习的格局,为语言建模提供更具可扩展性、可信度和成本效益的解决方案,”罗说。“通过证明较小的模型在语言理解方面可以与较大的模型达到相同的水平,这项工作为更可持续和保护隐私的人工智能技术铺平了道路。”
该团队发现,他们可以通过使用一种称为“自我训练”的技术进一步提高模型的性能,在这种技术中,模型使用自己的预测来自学,在没有人工监督和额外注释训练数据的情况下有效地学习。
自训练方法显着提高了一系列下游任务的性能,包括情绪分析、问答和新闻分类。它在零样本能力、GPT模型和其他监督算法方面优于谷歌的LaMDA和FLAN。
然而,自我训练的一个挑战是模型有时会生成不正确或嘈杂的标签,从而损害性能。为了克服这个问题,他们开发了一种称为“SimPLE”(简单伪标签编辑)的新算法,这是一种审查和修改在最初几轮学习中制作的伪标签的过程。
通过纠正任何错误标记的实例,它提高了自生成标签的整体质量。这不仅使模型在理解语言方面更有效,而且在面对对抗性数据时也更加稳健。
与大多数研究一样,也存在一些局限性。多类分类任务的自训练不如二元NLU任务的表现好,表明将蕴含模型应用于多选任务的挑战。
“这项研究提出了一种高效且有效的方法来训练大型语言模型(LLM),方法是将自然语言理解任务表述为上下文蕴涵问题,并采用伪标记自训练机制在训练过程中整合大量未标记的文本数据,”麻省理工学院教授兼CSAIL首席研究员JamesGlass补充道,他也是该论文的作者之一。
“虽然LLM领域正在经历快速而巨大的变化,但这项研究表明,与同等规模甚至更大的语言模型相比,可以产生相对紧凑的语言模型,这些模型在基准理解任务上表现非常好”
MIT-IBM沃森人工智能实验室的研究人员LeonidKarlinsky说:“隐含任务是评估对给定上下文的‘理解’的流行代理。”
“它被用于许多领域分析具有单模态的模型,如LLM和多模态,如VLM输入,简化了关于给定输入上下文的问题回答任务到二元分类问题——这个上下文是否需要某个(例如文本)结论与否?”
“这篇论文在这个领域做出了两个贡献。首先,它提出了一种方法,通过调整为原始NLU任务生成的合成(专用)蕴含任务,来提高零样本(无需额外调整)NLU性能和对对抗性攻击的鲁棒性。其次,它提供了一种自我监督的SimPLE方法,包括伪标记和基于置信度的过滤,以进一步提高大型LLMNLU的性能。”
“NLU是有效工业AI系统的关键模块,”FacebookAI研究经理DanielLi说。“传统的NLU模型依赖于任务,并使用大量人工注释数据进行训练。这项工作展示了一个计算高效、自学习和稳健模型的令人兴奋和有前途的结果,该模型在广泛的NLU任务中具有通用性。”
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。