四行代码让大模型上下文暴增3倍，羊驼Mistral都适用 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

新火种 2024-01-10

无需微调，只要四行代码就能让大模型窗口长度暴增，最高可增加3倍！

而且是“即插即用”，理论上可以适配任意大模型，目前已在Mistral和Llama2上试验成功。

有了这项技术，大模型（LargeLM）就能摇身一变，成为LongLM。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

近日，来自得克萨斯农工大学等机构的华人学者们发布了全新的大模型窗口扩展方法SelfExtended（简称SE）。

在Mistral上，研究者在24k长度的文本中随机插入5位数字让模型搜索，结果经SE处理后，呈现出了全绿（通过）的测试结果。

而未经处理的版本，在6k长度时就已经开始“见红”了。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

GitHub Copilot主创Alex Graveley也激动地宣布，在Llama2上进行的实验同样取得了成功。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

在网友的进一步询问之下，Alex解释了推文中“work”的具体含义：原先在4k长度时就会出现的噪声，现在已经消失了。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

而对于SE窗口长度的极限，一位根据论文复现SE代码的大佬表示，理论上（只要算力足够）可以达到无限长。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

那么，SE具体能达到什么样的效果呢？

长文本能力显著增强

在窗口长度从4096增长到16384的过程中，Llama 2的困惑度从一开始变飙升了两个数量级。

但使用SE后，文本长度变成了原来的4倍，困惑度却只增加了0.4。

而在Mistral上，SE比Mistral自身采用的滑动窗口（SWA）机制带来了更低的困惑度。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

△左下图使用对数坐标

在专为长文本模型设计的LongBench数据集中，SE处理后的模型在单/多文档问答、总结、少样本学习、代码等任务中，评分均相比起原始版本有所提升。

特别是在一个名为SOLAR的模型上，处理后的模型在16k长度下的表现比原始版本在4k长度下的表现还要优异。

SOLAR由两个羊驼掐头去尾拼接而成，这种拼接的方式，使得其注意力层结构与其他基于Transformer的模型形成了一定差异。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

同时，在GSM等由考试题组成的闭域问答任务中，SE优化后的模型也都相比原始版本取得了更高的平均成绩，在Mistral上稍逊于其自身的SWA方法。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

而长文本能力的增强，并没有带来模型在短文本上的能力下降。

在HuggingFace的OpenLLM基准下，SE版Llama2的测评成绩相比原版均为发生显著降低。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

目前，SE的开箱即用版支持Phi、Llama和Mistral三种模型，在这三种模型上只需4行代码就能进行窗口扩增。

对于其他模型，则需要对代码进行一定修改。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

那么，SE是如何给模型增加窗口长度的呢？

两种注意力机制共同作用

研究者认为，长文本能力是大模型本身就具有的，但需要通过一定方法激发才能实现。

其中最主要的问题是，大模型在处理长文本时，会遇到相对位置编码超出训练时所见范围的情况。

针对这一情况，作者采用了FLOOR注意力机制作为解决策略。

FLOOR对输入的文本序列进行分组，然后用组数对某一token的绝对位置做取整除，就可以长距离将映射到较短的范围。

然后，对这些映射值进行注意力运算，就解决了位置编码超限的问题，实现了长文本的处理。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

而在处理中短长度文本时，仍然使用模型原有的注意力机制，从而确保了模型不会“顾此失彼”，避免因长文本能力的增长导致短文本能力损失。

此外，在Mistral上复现SE的作者还坦言，目前该模型并不完美，可能存在计算量暴增的问题。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

同时，SE的原作者也说，目前SE方法的确还没有做过效率方面的优化，未来计划通过引入FlashAttention机制等策略来解决这一问题。

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

Tags:

上下文模型

相关推荐

NVIDIA深度适配通义千问大模型，推出舱驾融合大模型解决方案

2024-09-20

NVIDIA深度适配通义千问大模型推出舱驾融合大模型解决方案

2024-09-20

哈啰亮相2024云栖大会：展示AI整体布局及大模型案例

2024-09-20

在线可玩！智谱开源图生视频模型，网友直呼Amazing！

2024-09-20

奥特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍

2024-09-20

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

杭州：争夺机器人第一城

2025-04-24 11:27

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

蒙曼谈人工智能冲击：守住人类对于生活的感受

2025-04-21 11:28

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

浩物股份：公司暂未本地部署接入DeepSeek大模型

2025-04-21 11:27