如果您注意到当您尝试包含较大的提示时,本地安装的LLM速度变慢。您可能对以StreamingLLM形式提高大型语言模型的速度和性能的新解决方案感兴趣,该解决方案有助于提高法学硕士的速度和性能。将Llama2和Falcon扩展至多达400万个令牌,并提供比标准LLM快22倍的推理速度。

如何使用StreamingLLM提高法学硕士的速度

观看下面由AIJason创建的视频,他详细解释了StreamingLLM以及如何使用它来提高本地安装的AI模型的性能。探索这些挑战并探索潜在的解决方案,重点关注旨在提高法学硕士的数据输入能力和效率的新研究项目。

在流应用程序中部署LLM的主要挑战之一是解码阶段的大量内存消耗。这是由于缓存了先前令牌的键和值状态(KV)。流行的LLM(例如Llama-2、MPT、Falcon和Pythia)无法推广到比训练序列长度更长的文本,这一事实进一步加剧了这个问题。这种限制主要是由于GPU内存限制以及这些模型中使用的复杂Transformer架构所需的计算时间。

管理大数据输入的常见解决方案是使用窗口注意力。这种方法只缓存最近的KV,有效限制了需要存储的数据量。然而,这种方法有一个显着的缺点:它丢失了有关已删除标记的上下文。当文本长度超过缓存大小时,窗口注意力的性能会恶化,导致上下文丢失和生成内容的质量下降。

这个问题导致研究人员观察到一种有趣的现象,称为注意力下沉。他们发现该模型比后面的标记更关注初始标记,即使初始标记在语义上并不重要。他们发现,可以利用这种现象来很大程度上恢复窗口注意力的性能。

基于此分析,研究人员引入了StreamingLLM,这是一个高效的框架,使使用有限长度注意窗口训练的LLM能够泛化到无限序列长度,而无需任何微调。这种方法结合使用了具有注意力接收器的前几个令牌和最新令牌的滚动缓存。这使得法学硕士能够维护之前讨论过的内容以及最近的对话的上下文,从而有效地扩展了有效的上下文窗口。

StreamingLLM方法已显示出可喜的结果,使LLM能够使用多达400万个甚至更多的令牌执行稳定且高效的语言建模。在流设置中,它的性能比滑动窗口重新计算基线高出22.2倍。这使得它对于长格式内容生成和具有长期记忆的聊天机器人等应用特别有用。

然而,值得注意的是,StreamingLLM并非没有其局限性。虽然它确实保留了对话开始和结束的上下文,但它仍然在中间丢失了详细的上下文。这意味着它可能不适用于总结大量数据,例如研究论文。

StreamingLLM和注意力池概念的引入代表了在克服向LLM提供无限数据的挑战方面取得的重大进步。然而,它们只是上下文限制问题的一种解决方案。随着人工智能领域的不断发展,很可能会出现更多创造性的概念,以进一步提高法学硕士的能力和效率。