四川第一例“自贡话语音识别系统”投用准确率达80%
大家好,我shi自贡勒。走!门招 (明天)即(去)看灯会。尝试一下用自贡话念念以上语句,然后把方言转换成文字。作为四川最难学的方言之一,智能语音系统能识别出来吗?3月2日,成都商报记者了解到,由自贡市贡井区人民检察院(以下简称:贡井检察院)与一家科技公司合作研发的自贡话智能语音识别系统投入试运行阶段。该系统是在智能语音识别系统中载入自贡话语言包基础上创建而成,使用者对着麦克风,用正常语速的自贡话念完需要输入的内容,经处理,电脑便可同步生成文字,供编辑保存。目前,该系统的准确率可达80%,待进一步升级后,准确率可提高到85%。头一家检察院使用“方言语言识别”3月2日下午,在贡井检察院,杨宁向成都商报记者演示了这套“自贡话智能语音识别系统”。杨宁是贡井检察院检察委员会专职委员,他先是坐在办公桌前,嘴巴对准办公桌上的一个黑色麦克风,说了一段自贡话。“自贡市贡井区人民检察院办公室”、“本次对你的询问,有没有刑讯逼供诱供或者其他方法?”话音刚落,大约1秒钟时间,电脑上新建的Word文档里,便将其用语音表述的内容转化成了文字显示出来,并且还标注了标点符号。“语音识别并不稀奇,运用已经比较普遍。”杨宁告诉记者,但是用地方方言进行语音识别输入,在全省检察机关,贡井检察院还是头一家。当然,这个“头一家”尝试肯定不是为尝稀奇,而是提高工作效率。杨宁说,检察院在会议记录、文书起草、案件记录等工作时,往常都是通过键盘录入信息,比较耗费时间。去年5月,贡井检察院组织工作人员到山东等地考察,拟组织实施智能语音识别系统建设。随后的去年10月,四川省检察院正式确定贡井检察院为全省检察机关人工智能语音识别系统应用试点院。经过前期的筹建,2017年11月,贡井检察院与一家名为“科大讯飞”的公司合作开发了这套“自贡话智能语音识别系统”,同年12月正式进入试运行阶段。找亮点“审讯时发挥的效果最明显”“能讲本地方言,就可以把需要记录的内容记录到电脑上,可以极大地提高工作效率。”杨宁告诉记者,智能语音识别系统在实际运用中,普通话或者四川话(成都音为主)录入都是比较常见和成熟的,前者准确率可达95%,后者准确率可达85%。但是,对于检察院的实际工作来说,要求随时使用普通话开会和办案,适用性不强、使用率不高。贡井检察院也决定,开发自贡话语言包,创建自贡话智能语音识别系统。这套“智能语音识别系统”,主要分为三大板块。第一是智能语音会议系统。成都商报记者在贡井检察院的智能语音会议室看到,会议桌上放置有麦克风、电脑和打印机。
杨宁模拟了一个场景,比如检察官在讨论案件时,谁发言,谁就开启麦克风,发言内容便同步记录到电脑里。会后,只需对录入内容的层次或错别字稍作修改,便可当即打印成纸质材料,供现场确认和保存。杨宁告诉记者,以前采用人工键盘输入,除了记录速度慢,还会或多或少地存在记录不完整、记录内容与发言内容表达意思不一致等情况。使用语音会议系统后,可以解决记录速度的问题,还可以真实完整地记录下发言人的意思表达,提高案件讨论的精准性。“智能语音识别系统”的第二板块是“智能语音输入法”。以杨宁的办公桌为例,除了原有的电脑、打印机等办公工具,现在还多了一个麦克风。“一份审查报告,少则二三十页,多则上百页,用键盘输入 需要2至5个工作日。”杨宁说,用智能语音输入法,检察官在电脑上开启该输入法,对准麦克风,用自贡话说出需要输入的内容,相对应的文字信息会几乎同步地出现在预定的Word文档里,1个工作日就能完成一份审查报告。更大的亮点在于第三个板块:智能语音讯(询)问系统。这一系统安装在审讯室里,有一个圆形收音器和一个麦克风连接电脑、打印机组织。杨宁介绍,自贡语言包在审讯时发挥的效果最明显。检察官不可能要求每一名被审讯人都用普通话。使用自贡方言语言包后的讯(询)问系统,审讯人和被审讯人可自然地使用自贡方言对话,其对话内容同步形成文字录入电脑,最终形成纸质材料。“键盘录入,每分钟只有60到80个字,语音录入,每分钟最高可达400字”杨宁说,还能解决键盘录入与被审讯人所述内容存在偏差的问题。黑科技400小时自贡话聊天形成语言包准确率已达80%投入语音识别系统的语言包又从何而来?杨宁介绍,建设智能语音识别系统本身并不复杂,复杂的是自贡话语言包的创建。自贡话语言包总共包含了400个小时的自贡话语音聊天内容,这些内容全部从平日里的检务工作中采集,然后送到合作公司,由公司的技术人员进行加工,最终形成语言包。杨宁告诉成都商报记者,该院的智能语音识别系统自去年11月开始建设,同年12月份投入试运行。试运行期间,自贡话语言包仅包含了80个小时的语聊内容,还有300多个小时的内容正在有序的录入。目前,自贡方言语音识别的准确率已达80%;再做进一步完善,最终准确率可达85%。成都商报记者了解到,做方言识别技术,困难在于方言种类实在是太多了,需要建立不同的识别模型,而且一些方言缺乏足够多的语料,训练不足,导致识别准确性不高。科技公司的解决办法是,通过深度神经网络等技术,做出一个方言语音识别引擎,用于方言口音适配。同时征集足够多的方言语音数据来训练识别引擎,通过大量的预料训练,提升方言识别的准确性。
成都商报客户端记者 袁伟 摄影报道编辑 余孟祥
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。