GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

新火种 2024-02-20

今日GitHub热榜榜首，是最新的开源世界模型。

上下文窗口长度达到了100万token，持平了谷歌同时推出的王炸Gemini 1.5，伯克利出品。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

强大的模型，命名也是简单粗暴——没有任何额外点缀，直接就叫LargeWorldModel（LWM）。

LWM支持处理多模态信息，能在100万token中准确找到目标文本，还能一口气看完1小时的视频。

网友看了不禁表示，这种大海捞针般的测试，LWM能完成的如此出色，而且还开源，实在是令人印象深刻。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

那么，LWM的表现到底有多强呢？

百万上下文窗口，可看1小时视频

在测试过程中，研究人员用多段一个多小时的视频检验了LWM的长序列理解能力，这些视频由YouTube上不同的视频片段拼接而成。

他们将这些视频输入LWM，然后针对其中的细节进行提问，涉及的片段位于整个视频的不同位置，同时研究者还将LWM与GPT-4V等模型做了对比。

结果GPT-4V是一问一个不吱声，闭源强者Gemini Pro和开源强者Video-LLaVA都给出了错误的答案，只有LWM回答对了。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

在另一段视频的测试中，其他模型都说找不到有关信息，只有LWM找到了答案，而且完全正确。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

不仅是理解细节，LWM也能把握视频的整体内容，做出归纳总结。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

在理解的基础之上，LWM也可以结合自有知识进行推理，比如分析视频中不符合常理的地方。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

Benchmark测试结果显示，LWM在MSVD-QA等三个数据集上的评分仅次于Video-LLaVA。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

LWM不仅能理解长短视频，在超长文本任务上的表现同样优异。

在1百万token窗口的“插针”检索测试中，LWM取得了单针检索全绿的成绩。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

多针检索时，表现也同样优异：

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

语言任务数据集的测试结果表明，LWM在32k到1M的窗口长度上表现不输甚至超过只有4k窗口的Llama2-7B。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

除了多模态信息理解，LWM还支持图像和视频的生成，至于效果，还是直接上图感受一下吧。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

那么，研究人员又是怎样训练出这样一款世界模型的呢？

循序渐进，分而治之

LMW的训练过程，大致可分为两个阶段。

第一阶段的目标是建立一个能够处理长文本序列的语言模型，以理解复杂的文档和长文本内容。

为实现这一目的，研究人员采取了渐进式的训练方式，使用总计33B Token、由图书内容组成的Books3数据集，从32k开始训练，逐步将窗口扩增至1M。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

而为了增强LWM的长文本处理能力，开发者应用了RingAttention机制。

RingAttention是该团队去年提出的一种窗口扩增方式，入选了ICLR 2024。

它运用了“分而治之”的思想，将长文本分成多个块，用多个计算设备做序列并行处理，然后再进行叠加，理论上允许模型扩展到无限长的上下文。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

在LWM中，RingAttention还与FlashAttention结合使用，并通过Pallas框架进行优化，从而提高性能。

在文本能力的基础上，研究人员又用模型生成了部分QA数据，针对LWM的对话能力进行了优化。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

第二阶段则是将视觉信息（如图像和视频）整合到模型中，以提高对多模态数据的理解能力。

在此阶段，研究人员对LWM-Text模型进行了架构修改，以支持视觉输入。

他们使用VQGAN将图像和视频帧转换为token，并与文本结合进行训练。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

这一阶段同样采用循序渐进的训练方法， LWM首先在文本-图像数据集上进行训练，然后扩展到文本-视频数据集，且视频帧数逐步增多。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

在训练过程中，模型还会随机交换文本和视觉数据的顺序，以学习文本-图像生成、图像理解、文本-视频生成和视频理解等多种任务。

性能方面，研究人员在TPUv4-1024（大致相对于450块A100）上训练，批大小为8M、全精度（float32）的条件下，花费的时间如下表所示，其中1M窗口版本用了58个小时。

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

目前，LWM的代码、模型都已开源，其中多模态模型为Jax版本，纯文本模型有Jax和PyTorch两个版本，感兴趣的话可以到GitHub页面中了解详情。

Tags:

上下文出品

相关推荐

关注o1必备GitHub仓库，上线3天狂揽1.5k星！英伟达工程师出品！

2024-09-20

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

2024-06-04

国产开源Sora上新：全面支持国产AI算力，可用ReVideo视频编辑，北大-兔展团队出品

2024-05-29

国内外140+大模型、8万+考题测评结果出炉！智源评测体系出品

2024-05-20

谷歌硬刚GPT-4o！60秒视频生成模型虽迟但到，还把上下文窗口卷到了200万

2024-05-15

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

杭州：争夺机器人第一城

2025-04-24 11:27

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

蒙曼谈人工智能冲击：守住人类对于生活的感受

2025-04-21 11:28

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

浩物股份：公司暂未本地部署接入DeepSeek大模型

2025-04-21 11:27