训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

首页 > AI资讯 > 最新资讯 > 训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

新火种 2023-11-30

北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征，该框架使得一个 LLM 能够在图片和视频的混合数据下训练，并同时完成图片和视频理解任务。更重要的是，该框架极大降低了视觉语言模型训练和推理的开销，使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型。Chat-UniVi 模型在图片和视频的下游任务中都取得了卓越的性能。所有代码、数据集和模型权重均已开源。

图 1 Chat-UniVi 在图片、视频上的 17 个基准上达到先进的性能具体来说，北京大学和中山大学的研究人员提出了一种名为 Chat-UniVi 的统一的视觉语言方案，其能通过统一的视觉表征同时处理图片任务和视频任务。作为一个统一的视觉理解模型，Chat-UniVi 以更少的视觉 token 数量，超过了专门针对图片设计的多模态大模型和专门针对视频设计的多模态大模型。更值得注意的是，所提出的统一的视觉表征极大减少了输入视觉 token 的数量，大大降低了模型的训练和推理成本，使得训练一个具有 130 亿参数的通用视觉语言大模型只需要三天。

在介绍本文方法之前，我们先看一下 Demo 展示：

Tags:

大模型北大模型

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

AI大模型加速落地，阿里云持续「滋养」

英伟达JimFan：复刻NLP的成功路，用通用模型开启具身智能的GPT-3时刻

百度千帆大模型平台日均调用量超7亿次

百度智能云：千帆大模型平台日均调用量超7亿次

科大讯飞与中国绿发携手发布泰山大模型

热门文章

0326东吴宏观股指每日观点|市场弱势震荡磷化工领涨

联想AIPC全家桶接入DeepSeek，本地跑70B大模型，离线也能写总结

AI图像生成平台「LiblibAI」获数亿元融资

L3上路倒计时？工信部加快推进智能网联车规划产业基建+商业化迎来关键节点

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议

AI战略锁定增长确定性，粉笔2024年净利润2.4亿元

山西今年将对农用无人驾驶航空器进行购置补贴

南方电网人工智能科技公司增资至4.4亿元

市场监管总局将加快推进人工智能领域国家标准研制工作