阿里深夜炸场！通义千问发布新一代端到端旗舰模型Qwen2.5-Omni

首页 > AI资讯 > 最新资讯 > 阿里深夜炸场！通义千问发布新一代端到端旗舰模型Qwen2.5-Omni

阿里深夜炸场！通义千问发布新一代端到端旗舰模型Qwen2.5-Omni

通义千问Qwen 2025-03-27

财联社3月27日讯，北京时间周四凌晨，阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计，能够处理文本、图像、音频和视频等多种输入，同时能够通过生成文本和合成语音提供实时流式响应。

据“通义千问Qwen”官方微信号介绍，这款模型的主要特点如下：

全能创新架构：Qwen团队提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

模型性能方面，Qwen2.5-Omni在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模态任务OmniBench，Qwen2.5-Omni达到了SOTA的表现。此外，在单模态任务中，Qwen2.5-Omni在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval和主观自然听感）。

该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

Tags:

语音识别阿里新一代

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

阿里深夜炸场！通义千问发布新一代端到端旗舰模型Qwen2.5-Omni

宝马“牵手”阿里、岚图虚拟工程师“上岗”人工智能+深度融合汽车全产业链

阿里AItoC“押宝”夸克，看片利器能成AI神器吗？

7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

阿里深夜炸场！通义千问发布新一代端到端旗舰模型Qwen2.5-Omni

宝马官宣：与阿里达成AI合作通义大模型将上新世代车型

热门文章

杭州：争夺机器人第一城

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

蒙曼谈人工智能冲击：守住人类对于生活的感受

成立香港仔机器人，国华（00370）按下人工智能转型加速键

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

重庆首例！机器人辅助通过3里米小孔切除巨大肿瘤

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

浩物股份：公司暂未本地部署接入DeepSeek大模型

【VIP机会日报】政策面催化下跨境支付概念震荡走高栏目多维度梳理焦点公司收获涨停