打造粤语语料库,让AI赋能广府文化
广府新语对话
粤语作为汉语方言,是粤港澳地区、东南亚乃至全球华人的通行语言之一。如今,方言正在成为大语言模型应用探索的关键领域,建设多模态通用粤语语料库是广州的新使命。广州日报《理论周刊》邀请权威专家学者,聚焦粤语融合人工智能创新、为弘扬广府文化点燃新引擎,展开探讨。
文/广州日报评论员杨博
采访嘉宾
荀恩东北京语言大学语言资源高精尖创新中心主任、语言智能研究院院长、教授
齐佳音广州大学网络空间安全学院教授、粤语语料库建设与大模型评测重点实验室主任
广州日报《理论周刊》:数字化浪潮汹涌,粤语面向世界传播有哪些痛点?
荀恩东:方言所涉及的问题主要有四类。一是研究类的,比如研究方言的地域特点、历史变迁。二是应用类的,指借助信息技术、用方言过好语言生活,比如利用计算机合成方言的发音,或把方言转化为通用语言文字。三是保护类的,任何一种方言都代表一种文化、一种历史和一群人,但方言保护在世界范围内并不乐观。粤语经广东人移民,在海外的发音和表意已和广府地区大不一样,需要通过采样,按照其真实的分布保护起来。四是展示类的,比如建立线上线下的语言博物馆,以供展示。
在大语言模型时代,说方言的人将享受技术进步的成果。从应用方言的角度来看,利用大语言模型,能对方言进行语音合成、语音识别和翻译。方言的应用更多的是接口类的问题,也就是把方言从语音和文字层面转换为通用语言,这是当前的痛点。换言之,把方言转换为通用语言文字,大语言模型本身就能理解这种方言,并具备了通用语言的能力。此外,就合成来说,如果能利用计算机把普通话转换为方言,那么计算机就能以地道的方言发声。
齐佳音:语言是文化的载体,高资源语言能够借助大语言模型(Large Language Models, LLMs, 以下简称“大模型”)的规模效应进一步强化其影响力,低资源语言却要面对大模型带来的一些负面效应。我国国家通用语言文字在互联网场域是高资源语言,但是我国各地的方言却是低资源语言。如果不提高方言在网络世界中资源的占有量和获取的便捷性,那么大模型的应用将对方言的生存构成前所未有的威胁。
粤语在全球范围内有着重要的影响力,已成为使用最广泛的汉语方言之一,全球有上亿人群在日常生活中使用粤语,但是在网络世界中可供全球共享的专业化粤语数字资源库并不丰富。“粤语语料库建设与大模型评测实验室”致力于服务人工智能应用的粤语语料库资源,这对广州加快实现老城市新活力、“四个出新出彩”,对保障国家或区域的语言文化安全,都具有十分重要的意义。
广州日报《理论周刊》:法国作家雨果说:语言和太阳都不会停住的,到了语言固定的一天,它就死了。重点实验室作为底层基础设施,将如何为保护粤语“活化石”、解锁传统与现代融合的密码提供支撑?
荀恩东:通过大语言模型,把沉寂的、消亡或半消亡的方言激活,就能使世人知晓、了解这种方言,甚至可以让现代人与古人对话。比如,利用人工智能技术,复活失传的文字和语音,并赋予其解释,我们就能和古人对话。此外,利用人工智能技术保护方言,也有利于语言生活的多样化。虽然我们倡导使用通用语言文字去交流,但我们也倡导语言的多样化。活化、保护方言,可以促进使用方言的人群可持续地发展,这也有利于中华文明在语言生活方面实现多样化发展。比如,利用大语言模型,帮助不同方言人群的沟通。
齐佳音:粤语语料库建设与大模型评测重点实验室将通过四个方面的研究,来为粤语文化插上AI的翅膀。一是粤语文化精神标识体系构建。这是整体研究的基础,旨在凝练粤语文化精神标识体系的核心要素,将粤语文化放在中华文化大背景下进行论证,构建中国文化的粤语文化标记系统。二是通用粤语语料库建设,为粤语的人工智能应用提供“数据之源”。广泛汇集全球粤语语料,特别是对国家主流媒体沉淀的粤语数据资源进行语料加工,完成大规模通用粤语语料库建设。三是大模型粤语交互质量评测。这是在前两项研究基础上的应用研究,为所有拥有粤语服务的大模型提供交互质量评测。该平台也可以单独使用,为粤语的文本、图片和视频提供安全合规等方面的内容检测服务。四是大模型粤语言语交互质量提升,旨在基于评测结果,建立大模型粤语全生命周期的言语质量提升优化体系,最终形成一套系统的粤语AI生成内容质量评测及改善的对外服务系统。
重点实验室将通过开放开源的模式形成良好的政产学研用生态,形成面向人工智能应用的粤语文化数据资源基础服务能力以及面向人工智能粤语服务的内容安全合规评测能力,助力粤语数据化、资源化、服务化和产业化。
广州日报《理论周刊》:今年6月,国内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型的发布,打破了单一模型识别特定单一方言的困境。那么,如何看待广州建设重点实验室、研发本地语言产品的重要意义?
荀恩东:从政策制定、数据采集、应用开发、成果落地等方面来看,方言的发源地建立语料库具有多方面的优势。广州建设重点实验室、研发本地语言产品,不仅有政策支持,也有社会需求。在广州本地组织应用开发,有着丰富的场景。立足于粤港澳大湾区,广州面向华人华语世界来做这件事情,对保护和传承好粤语、维护文明的多样性具有特殊的意义。
齐佳音:当前,大模型多语言服务已成发展趋势,如ChatGPT、豆包等都已经支持一百多种语言的文字交互,尽管多数的语言交互质量还不尽如人意。其中的根本原因还是粤语语料库的质量和规模尚无法满足产业界的需要。
广州专注于支撑粤语人工智能应用的粤语语料库建设,优势有三。一是得天独厚的粤语文化资源。依托广州市来建设重点实验室可以就地取材,以最低的成本最大化用好粤语资源。二是强强联手的跨学科合作资源。三是高效配合的机制创新优势。譬如,采用双领导架构,由广州大学与广州市社会科学界联合会共建;设立由技术首席专家和语言首席专家担任指导的双首席专家制度。这些组织架构设置,有利于聚集各方资源,保障重点实验室建设。
(文章来源:广州日报)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。