StreamingLLM：解决大语言模型面临的RAM和泛化问题的框架

颜小莫发布于 2023-10-10 12:42:49

分类：热点

阅读( )

评论( )

StreamingLLM：解决大语言模型面临的RAM和泛化问题的框架

IT之家在10月6日报道，麻省理工学院与Meta AI的研究人员共同开发了一个名为StreamingLLM的框架，该框架提供了一系列解决方案，以解决大语言模型可能遇到的RAM和泛化问题。这个框架的核心是能够让语言模型处理无限长度的文本内容。

该框架的研究重点是如何解决实现流式语言模型（ESLM）的障碍，特别是针对长时间互动的多轮对话场景中可能出现的问题。研究人员指出，流式语言模型主要面临两大挑战。

第一个挑战是在解码阶段，获取token的键（Key）值（Value）状态会消耗大量的RAM。第二个挑战是当前流行的大语言模型难以泛化并适用于超过训练序列长度的长文本。

过去的研究试图解决这些挑战，例如通过扩展注意力窗口或建立一个固定大小的活动窗口。然而，这些方法在遇到超过缓存大小的序列长度时失效。目前，流式语言模型面临的最大挑战是如何在不消耗过多RAM且不损害模型性能的前提下处理长文本输入。

StreamingLLM采取的策略是利用注意力下沉现象。研究人员观察到，在自回归语言模型中，无论特定token与语言模型本身的相关性如何，如果对代token分配了大量的注意力，这些获得高度注意力的token就会表现出注意力下沉的现象。这些token在语义上不重要，但他们仍然获得模型强烈关注（即给予特定token内容大量注意力，从而获得模型大部分的关注，而这些特定token内容包含“下沉token的键值”，从而确保无论输入序列有多长，模型的注意力计算都能维持稳定）。

StreamingLLM的重要贡献在于它提出了一种简单且高效的解决方案，使语言模型无需微调即可处理无限长度的文本。它解决了当前语言模型在流式应用中的困境。虽然未来的流式语言模型势在必行，但由于RAM效率的限制以及模型在处理长序列的性能问题，相关模型的发展仍受到挑战。经过研究团队的证实，StreamingLLM能够让Llama 2、MPT、Falcon和Pythia可靠地处理高达400万token的文本，这为流式语言模型的部署提供了更多的可能性。

未经允许不得转载：免责声明：本文由用户上传，如有侵权请联系删除！