超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

新火种 2024-09-04

新的最强开源多模态大模型来了！

阿里Qwen2大模型家族新添多模态模型Qwen2-VL，在图像和长视频理解任务上双双取得了SOTA。

在具体的子类任务中，Qwen2-VL在大部分的指标上都达到了最优，甚至超过 GPT-4o等闭源模型。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

在多模态能力的加持下，Qwen2-VL可以实时读取摄像头或电脑屏幕，进行文字形式的视频对话。

【视频请到公众号查看】

甚至还能作为Agent与环境进行交互，根据任务目标自主操控手机等设备。

【视频请到公众号查看】

此次发布的Qwen2共有2B、7B、72B三个版本，其中2B和7B版本已可下载并免费商用（Apache 2.0），72B则通过API提供。

目前开源代码已集成到Hugging Face Transformers、vLLM等第三方框架中。

还有不少网友都在狂cue一些知名大模型推理平台，如Groq、Ollama，希望能够早日提供支持。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

下面就来一睹Qwen2-VL的表现！

会操作机械臂的多模态大模型

利用强大的多模态能力，Qwen2-VL能够操纵机械臂，进行物体的拿取、放置等操作。

【视频请到公众号查看】

还可以化身扑克牌玩家，根据识别到的场上信息和提示词描述进行“24点”游戏的决策，并且取得了胜利。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

还有开头所展示的，Qwen2-VL可以根据识别到的屏幕内容，结合用户需求自行操作手机在网络上进行信息检索。

当然在这些体现工具调用和Agent交互能力的复杂任务背后，基础能力也是不能落下。

比如图像识别，在物体类的识别当中，Qwen2-VL可以准确地认出花的品种。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

另一类识别场景是文字，Qwen2-VL支持多种语言的文本提取。

甚至把16种语言混合到一张图中，Qwen2-VL不仅能判断各自的语种，也能一口气提取出全部文本。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

手写字体和复杂的数学公式也能识别，并且上下标这种微小细节处理得非常到位。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

Qwen2-VL还支持多模态推理，代码和数学（包括几何）类问题，只需要传张图片就能解决。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

视频方面，Qwen2-VL最长可以对20分钟以上的视频进行内容分析，既支持总结也能对细节进行提问。

不过目前还只能分析画面，暂不支持对声音的处理。

【视频请到公众号查看】

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

同时也支持实时视频文字对话，除了开头展示的基于摄像头的对话外，也可以读取电脑屏幕，作为对话的内容。

【视频请到公众号查看】

总之，在这些任务的背后，蕴含着Qwen2-VL不凡的综合实力。

多模态实力超GPT-4o

为了了解Qwen2-VL在各种任务上的综合表现，千问团队一共从从六个方面对其视觉能力进行了评估。

具体包括了综合类大学试题、数学试题、文档表格理解、通用场景下的问答、视频理解以及Agent能力这六种类型。

整体来看，Qwen2-72B的大部分的指标上都达到了最优，甚至超过了GPT-4o和Claude3.5-Sonnet，特别是在文档理解方面优势明显。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

另外在多语言测试中，MTVQA也在9种语言中的8种全面超越了GPT-4o、Claude3-Opus和Gemini Ultra这些先进闭源模型，平均成绩也是最高分。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

7B版本同样支持图像、多图、视频的输入，同时也达到了同等规模模型的SOTA水准。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

最小的2B版本则主要为移动端设计，但麻雀虽小，却具备完整图像视频多语言的理解能力，特别在视频文档和通用场景问答相较同规模模型优势明显。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

整体上，Qwen2-VL延续了其上一代Qwen-VL中ViT加Qwen（2）的串联结构，在三个不同规模的模型上，Qwen2-VL都采用了600M规模大小的ViT，并且支持图像和视频统一输入。

为了让模型更清楚地感知视觉信息和理解视频，Qwen2-VL新增了对原生动态分辨率的全面支持。

与上一代模型相比，Qwen2-VL能够处理任意分辨率的图像输入，不同大小图片被转换为动态数量的tokens，最少只需要4个。

这种设计不仅确保了模型输入与图像原始信息之间的一致性，也模拟了人类视觉感知的自然方式，让模型在图像处理任务上更加灵活高效。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

Qwen2-VL在架构上的另一项创新，是多模态旋转位置嵌入（M-ROPE）。

传统的旋转位置嵌入只能捕捉一维序列的位置信息，而M-ROPE通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分。

这使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

这一创新有助于提升模型的多模态处理和推理能力，能够更好地理解和建模复杂的多模态数据。

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

DEMO：https://huggingface.co/spaces/Qwen/Qwen2-VL项目主页：https://qwenlm.github.io/blog/qwen2-vl/GitHub：https://github.com/QwenLM/Qwen2-VL

Tags:

阿里实时

相关推荐

阿里云发布首个“Data+AI”驱动的一站式多模数据平台

2024-09-20

阿里云AI基础设施升级亮相，模型算力利用率提升超20%

2024-09-20

阿里云宣布飞天企业版已实现“智算升级”

2024-09-20

阿里云正式发布百炼专属版2.0

2024-09-20

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

2024-09-20

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

杭州：争夺机器人第一城

2025-04-24 11:27

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

蒙曼谈人工智能冲击：守住人类对于生活的感受

2025-04-21 11:28

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

浩物股份：公司暂未本地部署接入DeepSeek大模型

2025-04-21 11:27