HuggingFace研究人员推语音识别模型Distil-Whisper速度提高、参数减少

首页 > AI资讯 > 最新资讯 > HuggingFace研究人员推语音识别模型Distil-Whisper速度提高、参数减少

HuggingFace研究人员推语音识别模型Distil-Whisper速度提高、参数减少

新火种 2023-11-15

划重点:

⦁ Hugging Face研究人员利用伪标记创建了一个庞大的开源数据集，用于提炼Whisper模型的较小版本，称为Distil-Whisper。

⦁ Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性，同时减轻了长篇音频中的错觉错误。

⦁ 自动语音识别（ASR）系统已达到人类水平的准确度，但由于预训练模型的不断增大，在资源受限的环境中面临挑战。

站长之家11月9日消息:Hugging Face研究人员最近解决了在资源受限环境中部署大型预训练语音识别模型的问题。他们通过创建一个庞大的开源数据集，使用伪标记的方法，提炼出了Whisper模型的较小版本，称为Distil-Whisper。

声音音频

图源备注：图片由AI生成，图片授权服务商Midjourney

Whisper语音识别变压器模型是在68万小时的嘈杂互联网语音数据上进行了预训练。它包括基于变压器的编码器和解码器组件，在零调优的情况下取得了竞争激烈的结果。而Distil-Whisper是通过使用伪标记进行知识提炼得到的紧凑版本。

Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性，同时减轻了长篇音频中的错觉错误。这项研究引入了一种针对语音数据的大规模伪标记方法，这是一个尚未充分开发但颇具前景的知识提炼途径。

自动语音识别（ASR）系统已经达到了人类水平的准确度，但由于预训练模型的不断增大，在资源受限的环境中面临挑战。Whisper作为一个大型预训练ASR模型，在各种数据集上表现出色，但在低延迟部署方面可能更实用。而知识提炼在压缩自然语言处理变压器模型方面已经得到了有效应用，但在语音识别中的运用尚未得到充分探讨。

与原始 Whisper 模型相比，源自知识蒸馏的 Distil-Whisper 显着提高了速度并减少了参数，同时在具有挑战性的声学条件下保持了弹性。它的加速速度提高了5.8倍，参数减少了51%，在零样本场景下的分布外测试数据上实现了不到1% 的 WER。distil-medium.en 模型的 WER 稍高，但直接推理能力提高了6.8倍，模型压缩率提高了75%。Whisper 模型在长格式音频转录中容易出现幻觉错误，而 Distil-Whisper 可以减轻这些错误，同时保持有竞争力的 WER 性能。

Distil-Whisper 是通过知识蒸馏实现的 Whisper 模型的紧凑变体。这种创新方法在速度和参数减少方面产生了显着的好处，与原始 Whisper 模型相比，Distil-Whisper 速度更快，参数更少。尽管 WER 稍高，但 distil-medium.en 模型提供了更直接的推理和实质性的模型压缩。

Tags:

人工智能研究人员模型

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

HuggingFace研究人员推语音识别模型Distil-Whisper速度提高、参数减少

工信部辛国斌：深化5G+工业互联网和人工智能赋能加快数字技术在制造业全行业全链条的应用

工信部辛国斌：深化5G+工业互联网和人工智能赋能，加快数字技术在制造业全行业全链条的应用

NVIDIA深度适配通义千问大模型，推出舱驾融合大模型解决方案

NVIDIA深度适配通义千问大模型推出舱驾融合大模型解决方案

哈啰亮相2024云栖大会：展示AI整体布局及大模型案例

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

蒙曼谈人工智能冲击：守住人类对于生活的感受

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

浩物股份：公司暂未本地部署接入DeepSeek大模型

大消费高低切换加速涨价概念正逐步化身市场暗线

两会新华解码丨“强化宏观政策民生导向”透出什么深意？