Meta发布全新AI翻译大模型，实时语音转换不超2秒

首页 > AI资讯 > 行业动态 > Meta发布全新AI翻译大模型，实时语音转换不超2秒

Meta发布全新AI翻译大模型，实时语音转换不超2秒

新火种 2023-12-27

要点:

Meta发布了全新的AI翻译大模型，实现实时语音转换延迟不超过2秒，支持多种语言翻译，并具备模仿语气、语速、情感等特征的能力。

发布的翻译模型系列名为Seamless Communication，包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless，其中前三个模型已经开源。

为确保翻译准确性和避免滥用，Meta采用了毒性缓解技术，在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词，同时为音频添加了水印以追踪来源。

站长之家12月21日消息:Meta最新发布了一系列AI翻译大模型，标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication，包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless，其中前三个已经在GitHub上开源。这些模型不仅具备跨语言语音复杂性的保留能力，而且能够模仿语气、语速、情感等细致特征，使得AI翻译更富有表现力。

在技术架构方面，Meta采用了非自回归架构，提高了模型的扩展性和鲁棒性，特别适用于流媒体场景。核心算法EMMA能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本，同时采用了UnitY2等新架构来增强语音生成能力。

为了解决翻译准确性的问题，Meta引入了“毒性缓解”技术，在翻译生成过程中自动检测和调整生成的有毒单词，显著减少了翻译的“毒性”。

为了防止滥用风险，Meta还为音频添加了水印，通过在音频中嵌入不可察觉的信号，可以准确追踪音频的来源，并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身，还涵盖元数据、数据和数据对齐工具，其中元数据包括58.5万小时的语音文本对，是目前容量最大、语言覆盖最广的语音语料库之一。

总体而言，Meta的这一系列翻译模型在实时语音翻译领域取得了显著的突破，不仅提升了翻译速度，还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。

Tags:

大模型实时语音

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

Meta发布全新AI翻译大模型，实时语音转换不超2秒

首发4599元起石头洗衣机Z1系列上市：支持AI语音操控

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”

黄仁勋预言步入现实谷歌展示实时游戏生成AI模型GameNGen

腾讯会议上线17种语言实时翻译，基于腾讯混元、腾讯翻译

热门文章

OpenAI重夺竞技场第一，但这波靠的是4o

腾讯杰出科学家刘威离职！为混元大模型技术负责人之一

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带怕的

腾讯与北师大心理学部共建大模型情感能力，推动大模型情商能力应用发展

人工智能涌起“代理潮”OpenAI即将推出AI代理工具Operator

如何评判大模型应用效果？百度石清华：能否为企业省钱、提效、挣钱

AIOS再进化，只有苹果、华为能做成真正的AIPhone？

港股概念追踪|腾讯推出AI搜索ima机构看好科技产业围绕AI展开（附概念股）

科大讯飞获得发明专利授权：“GAN网络压缩方法、装置、设备及存储介质”