重磅升级！标贝语音识别3.0版上线，实现更强语音识别能力

首页 > AI资讯 > 最新资讯 > 重磅升级！标贝语音识别3.0版上线，实现更强语音识别能力

重磅升级！标贝语音识别3.0版上线，实现更强语音识别能力

新火种 2023-10-27

语音识别技术，也被称为自动语音识别Automatic Speech Recogntion(ASR)，是通过计算机自动将人类的语音内容转换为相应文字的技术。通俗来讲，语音识别就是机器的“耳朵”，在人与机器进行语音交流的时候，让机器听得懂人类在说什么的前提。

近几年，随着深度学习技术在语音识别的应用，使得语音识别的性能得到了显著提升，交互场景从生活扩展到企业应用，需求也从识别的速度、精度转移到一些更加复杂的问题，对语音交互技术提出了更高的要求。

近期，标贝科技语音识别技术3.0版发布升级。经过一年多的算法攻坚，标贝科技研发团队在前端语音信号处理、声学模型、解码方式等各项技术实现全面升级，不仅在准确率及识别速度方面有了明显提升，而且还实现了快速纠错和热词实时更新等功能，进一步满足了行业用户的需求，提升语音识别体验。

全新技术升级语音识别更高效

● 语音转写识别率极大提升

标贝ASR3.0在conformer端到端模型结构的基础上创新改进，在建模单元上引入了音节信息，将传统的GMM-HMM的对齐信息引入到前期训练中加速收敛，实现了在复杂环境下拥有更好的鲁棒性和识别效果。

无论是不同设备录制、不同网络传输、还是带有一定噪声和干扰的语音，都可以实现准确转写。在通用场景测试中，标贝ASR3.0准确率绝对提升3%-5%，达到行业领先水平，识别速度提升将近2倍。

● 更灵活高效的解码方式

标贝ASR3.0在解码方面借鉴了传统解码器对声学、发音词典、语言模型的融合方式，通过word networks融合发音词典的方式构图，以此来达到语言模型快速优化、降低解码资源占用的目的。

不同于shallow fusion，标贝ASR3.0解码器在出词之前就加入语言模型的分数，进行解码路径的扩展，以此达到类似conformer结构中decoder部分的自回归效果。搜索时采用token passing的方式，能够轻松满足产品上对识别结果的衍生需求，比如：时间戳、置信度等功能，为不同领域客户提供更细粒度的语音识别服务。

● 热词及自定义语言模型快速生效

标贝ASR3.0兼顾了热词快速生效和自定义语言模型无感知热更新的功能。对于不同的特殊场景需求，用户只需要上传热词或者更新一下对应的语言模型即可，以尽量低的成本，提供更加流畅的识别体验，不影响正常的运行使用。

更多能力加持助力语音识别加速落地

据中商产业研究院统计，2020年中国智能语音市场规模达到113.96亿元，同比增长19.2%，预计2022年中国智能语音市场规模将增长至161.91亿元。其中，语音识别作为AI领域最为成熟落地的技术之一，也将继续加速在各垂直行业的渗透和布局。

作为国内领先的智能语音交互与AI数据服务商，标贝科技深耕语音交互领域多年，在技术创新和数据服务双轮驱动下，为AI产业打造更精准、更高效的语音识别服务。

针对专业领域应用场景，标贝科技推出“ASR自学习工具”。用户在语音识别控制台上传专有领域或行业积累的文本数据，通过对这些训练语料做模型训练，来生成自己的自学习个性化模型和热词模型，有效提高专有领域场景下的语音识别准确率。

此外，为满足不同语种的客户群体需求，标贝科技语音识别今年在语种丰富度上持续发力。在支持常见中文、英文识别基础上，开放了粤语、维语两种方言识别能力。经过长期的打磨训练和效果调优，目前标贝科技语音识别各语种已广泛应用于车载语音交互、会议记录转写、视频字幕、电话录音质检等业务场景。

作为新一代智能语音识别引擎，标贝科技ASR3.0已经在官网及开放平台焕新上线，以优质的性能对外提供AI开放式服务，赋能更多对语音识别有需求的合作伙伴。标贝科技AI语音产品负责人表示：“标贝研发团队未来仍将继续打磨技术，让语音技术在复杂多变的环境里，也能实现自然、流畅的语音交互体验，为企业提供更加高效、低成本、可定制的解决方案。”

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

Tags:

语音识别重磅上线

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

重磅升级！标贝语音识别3.0版上线，实现更强语音识别能力

重磅！国产AI写作模型比ChatGPT强1000%，360前员工AI团队取得重大突破

通义千问重磅开源Qwen2.5，性能超越Llama

闲鱼将首次用上AI技术：“智能发布”“智能托管”年内上线

通义将发布视频生成大模型，预约页面悄然上线

阿里通义将发布视频生成大模型预约页面已上线

热门文章

新消费日报|飞猪元旦出境游机票、酒店双增长；鸿蒙智行累计上线华为超充站超500座……

AI自习室能成为“伴学良师”吗

参加完NeurIPS，纽约大学教授感受到了AI博士生的焦虑与挫败

大健康科研成果如何转化？这场集聚医疗机构、创业者、投资机构及高校的论坛来了

机构密集调研AI眼镜概念股！龙头双双20CM涨停，本月接待量居前热门股名单来了

「AI新世代」年末投资冲刺！阶跃星辰完成B轮融资资本密集涌入AI赛道

助力北京机器人产业发展机器人产业投融资对接活动在首钢园举办

快买正版！国际唱片业：现在中国互联网每天上百万AI做的音乐都是非法盗版

2024美股风云变幻，回看震撼市场的十大事件|环球年终盘点