10分钟标注数据胜过一年前960h，FAIR语音识别大进展

首页 > AI资讯 > 最新资讯 > 10分钟标注数据胜过一年前960h，FAIR语音识别大进展

10分钟标注数据胜过一年前960h，FAIR语音识别大进展

新火种 2023-09-07

选自arXiv

作者：Qiantong Xu等

机器之心编译

编辑：魔王近日，来自 FAIR 的研究者提出结合自训练和无监督预训练执行语音识别任务，证明这两种方法存在互补性，并取得了不错的结果。

自训练和无监督预训练成为使用无标注数据改进语音识别系统的有效方法。但是，我们尚不清楚它们能否学习类似的模式，或者它们能够实现有效结合。

最近，Facebook 人工智能研究院（FAIR）一项研究展示了，伪标注和使用 wav2vec 2.0 进行预训练在多种标注数据设置中具备互补性。

只需来自 Libri-light 数据集的 10 分钟标注数据和来自 LibriVox 数据集的 5.3 万小时无标注数据，该方法就能在 Librispeech clean 和 other 测试集上取得 3.0%/5.2% 的 WER（词错率），甚至打败了仅仅一年前基于 960 个小时标注数据训练的最优系统。在 Librispeech 所有标注数据上训练后，该方法可以达到 1.5%/3.1% 的词错率。

近期，基于标注语音数据的语音识别模型取得了显著进展。但这些模型存在一个缺陷：它们需要大量标注数据，而这些数据仅针对英文和少数几种语言。因此，纯监督式的训练对于全球.pdf 7000 种语言中的绝大多数是不可行的，因此很多人对如何更好地利用无标注语音数据产生了极大兴趣。

利用无标注数据的方法包括经典的自训练，这类方法对无标注音频数据进行伪标注，并使用额外标注数据对系统进行重新训练，取得了不错的结果。另一类工作是先在无标注语音数据上预训练表征，然后在标注数据上进行微调。

Facebook 这篇论文将自训练和无监督预训练结合起来。这两种利用无标注数据的方法在基准上都取得了不错的结果，该研究想要解决的核心问题是它们能否互补。具体而言，该研究基于最近提出的 wav2vec 2.0 模型与 Kahn et al. (2020; [13]) 和 Xu et al. (2020; [14]) 提出的自训练方法进行，探索了从头开始基于伪标注数据训练模型，以及对预训练模型进行微调。为了更好地了解这两种方法的互补性，研究人员使用了相同的无标注数据。

在 Librispeech 完整数据集和 Librilight 低资源标注数据设置下，自训练和无监督预训练具备互补性，这与近期自然语言理解领域的研究结果一致。仅使用 10 分钟的标注数据和 LibriVox 无标注数据，wav2vec 2.0 和自训练方法的结合体就在 Librispeech clean 和 other 测试集上取得 3.0%/5.2% 的词错率，相比仅使用预训练方法的近期研究 [24] 词错率分别降低了 25% 和 40%。这一结果支持了该假设：自训练将伪标注所用的语言模型融入进最终模型。在 960 小时标注数据上训练后，该方法可以达到 1.5%/3.1% 的词错率。

方法

数据集

该研究使用了 Librispeech 数据集（约有 960 个小时的音频）和 LibriVox (LV-60k) 数据（经过预处理后，包含约 5.3 万小时的音频）。

研究人员考虑了五种标注数据设置：Librispeech 的全部 960 小时标注数据和 train-clean-100 子集（100 小时数据），Libri-light 有限资源训练子集 train-10h (10h)、train-1h (1h) 和 train-10min (10min)。该研究在 Librispeech dev-other/clean 和 test-clean/other 数据集上进行方法评估。

预训练与自训练的结合

该研究使用了 wav2vec 2.0 预训练模型。该库提供针对上述五种标注数据设置的微调模型。

至于自训练，研究人员使用基于不同标注数据设置微调过的 wav2vec 2.0 LARGE 模型对 LS-960 或 LV-60k 音频数据执行伪标注。

最后，研究人员按照 Synnaeve et al. (2020; [2]) 的方式，并在使用 wav2letter++ [37] 执行伪标注后，利用 log-Mel filterbank 输入训练一个基于 Transformer 的序列到序列模型。编码器使用包含 4 个时间卷积层的卷积前端模块（滤波器宽度为 3），然后是 36 个 Transformer 块（模型维度为 768、注意力头数量为 4、前馈网络维度为 3072）。该模型包含约 3 亿参数。

实验

低资源标注数据

下表 1 展示了，在所有低资源数据设置中，结合预训练和自训练 (wav2vec 2.0 + ST) 后的性能超过仅使用预训练 (wav2vec 2.0) 的性能。在 10h labeled 设置中，该方法相比迭代伪标注方法 [14] 有大幅提升。

高资源标注数据

该研究在 Librispeech 100h clean 子集和 Librispeech 960h labeled 数据集上进行评估。下表 2 显示，在 100h labeled 设置下，LS-960 作为无标注数据时该研究提出的方法无法超过基线模型。但是使用更大规模的 LV-60k 作为无标注数据时，该方法性能有所提升，在 test-other 测试集上的词错率比 wav2vec 2.0 降低了 10%。

推断时没有语言模型的评估结果

下表 3 展示了，在没有语言模型的情况下，自训练和预训练的结合仍能取得不错的性能。这是因为伪标注过程中使用的语言模型已被部分融入伪标注数据中。在没有语言模型的 10 min labeled 设置下这一效应尤其显著：在 test-other 数据集上，wav2vec 2.0 + ST (s2s scratch) 将基线方法 (wav2vec 2.0 - LM) 的词错率降低了 83%。

Tags:

语音识别进展数据

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

10分钟标注数据胜过一年前960h，FAIR语音识别大进展

阿里云发布首个“Data+AI”驱动的一站式多模数据平台

8月全球AI搜索数据出炉，知乎直答访问量增长345%

华为董事：西方AI把中国的数据都送到国外我们接受不了！

中天金融重整进展：第二次债权人会议表决截止时间再次延长至6月20日17时

深圳考生：高考作文题与“AI大数据”有关

热门文章

光洋股份：年产6000万套高端新能源汽车及机器人用精密零部件

原力无限机器人解锁充电新方式｜EDGEFoundersDemoDay

中国大模型公司智谱被美国商务部列入实体清单

战略性新兴产业发明专利有效量较前一年增超15%，人工智能ETF（159819）等产品受关注

爱施德拟出资4.9亿元参设产业投资并购基金布局智慧终端、人工智能和低空经济等

1月14日五洲新春涨停分析：人形机器人，机器人，新能源车零部件概念热股

2025新年献词|百嘉基金总经理詹松茂：拥抱时代发展贝塔，耕耘价值笃行致远

美股收盘：三大股指集体收涨中概股指涨逾2.6%

爱建集团：公司暂未直接投资人工智能公司