首页 > AI资讯 > 行业动态 > 语音领域的GPT时刻:Meta发布「突破性」生成式语音系统,一个通用模型解决多项任务

语音领域的GPT时刻:Meta发布「突破性」生成式语音系统,一个通用模型解决多项任务

新火种    2023-10-29
我们知道,GPT、DALL-E 等大规模生成模型彻底改变了自然语言处理和计算机视觉研究。这些模型可以生成高保真文本或图像,而且它们有个重要特点就是「通才」,可以解决没训过的任务。相比之下,语音生成模型在规模和任务泛化方面一直没有「突破性」成果。
今日,Meta 介绍了一种「突破性」的生成式语音系统,它可以合成六种语言的语音,执行噪声消除、内容编辑、转换音频风格等。Meta 称之为最通用的语音生成 AI。

图片


相关研究论文也已公布。接下来我们具体看下这下项研究。

图片

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/
Meta 表示,Voicebox 是第一个没有经过专门针对语音生成的训练,却可以泛化到语音生成任务的模型。
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。