讯飞听见CTO苏文畅:认知大模型为内容处理革新带来新机遇
讯飞听见CTO兼讯飞听见平台业务部总经理苏文畅
2023年12月1-3日,2023T-EDGE全球创新大会暨EDGE AWARDS创新评选在北京 751D·PARK传导空间举办,本次大会主题为「新视野 新链接」,邀请国内外顶尖创新与商业领袖齐聚一堂,共同回顾2023年的行业洞察与发展,展望未来一年的技术革新趋势与可能。
12月1日下午,讯飞听见CTO兼讯飞听见平台业务部总经理苏文畅在钛媒体2023T-EDGE大会上发表了名为《基于AI的内容处理革新》的主题演讲。
今年,人工智能的应用与迅发展迅速冲进大众的视野,行业也随之掀起了“百模大战”。在苏文畅看来,人工智能的持续积累为通用人工智能打下了扎实的基础,现阶段通用人工智能已具备文本生成、语言理解、知识问答、逻辑推理等七个维度的多模态能力。
他表示,之前科大讯飞在人工智能领域已经做了大量的工作,包括2008年在语音合成上面,也达到了普通人的普通话水平。在2015年,首次超过了人类速记员的水平,有了这样的突破才有了后面记录包括现场同传场景所做的工作。
随着时代的发展,内容创作所使用内容创作的工具也是在不断发展的。AIGC时代,科大讯飞也在思考是不是会有一些新的内容创作工具的出现,来满足用户更多的需求,比如语音转文字后可以直接生成采访稿件或者会议纪要等。
“认知大模型的出现,带来了解决人类刚需的全新机遇”,苏文畅说道,“认知大模型一个很重要的变化就是基于算力、算法以及数据的整体提升,带来’智能涌现’,可以让我们基于一个通用大模型,去做很多任务。”
从最早的语音文字以及翻译,到现在基于AIGC在记录和写作两个场景了做了一些提升,科大讯飞的产品除了提供在线的C端访问的端口,也可以提供B端或者G端定制化解决方案。
“我们希望通过之前的AI感知的技术,以及认知大模型相关的技术结合,为我们的企业、各种组织和个人提供生产力效率的工具,激发大家的想象力”,苏文畅如是说。
以下为苏文畅演讲实录,略经钛媒体App编辑:
各位领导、各位嘉宾下午好,我是科大讯飞的苏文畅,今天会场两边有中英双语字幕,这也是我们讯飞听见的产品。
今天谈到AIGC都会提到AIGC对于内容创作的影响,以及对于内容创作的机遇。我今天演讲主要聚焦于我自己在科大讯飞里面做的业务,核心聚焦在两个场景的内容处理,一个记录的场景还有一个写作的场景。我们从最早的语音转文字以及翻译,以及基于现在的AIGC在记录和写作两个场景做了一些工作。接下来会跟大家逐步的做一些分享。
科大讯飞一直从1999年成立以来,致力于语音及人工智能相关技术研发以及相关产业化,我们也建立了多个国家级平台,一直致力于让机器能听会说,让机器能理解会思考,用人工智能介绍美好世界。
说到人工智能,之前科大讯飞已经做了大量的一些工作,包括2008年在语音合成上面,达到了普通人的普通话水平。在2015年,我们首次超过了人类速记员的水平,有这样的突破才有了后面记录包括现场同传场景所做的工作。后续我们通过智医助理这样的产品,通过国家级医学的考试,也是超过大多数人类考生的水平。
5月6号,科大讯飞发布了星火大模型,6月9号做了升级,对开放式问答还有数学能力做了升级,8月15号在代码能力以及多模态交互上面做了一些升级,以及在“1024”发布了讯飞星火3.0的版本。
我们发布认知大模型,获得了很多业界的好评,包括在新华社研究院国产大模型报告当中获得了不错的成绩,麻省理工科技评论方面给予了我们最聪明大模型的称号。
认知大模型很重要的变化,基于算力还有算法以及数据整体的不断的提升,带来了智能的涌现,让我们基于通用大模型做很多的任务。我们总结起来,当前通用人工智能主要有文本生成、语言理解还有知识问达、逻辑推理7个维度的能力,这些能力对我们改变信息的分发获取模式,以及革新内容生产模式,全自然交互领域,带来一些全新的机遇。
大家都知道内容创作是需要使用这样的工具,随着时代的发展,内容创作所使用内容创作的工具也是在不断发展的。尤其到近现代,处理内容创作的文档,从最早的比较注重排版到移动互联网时代比较注重团队协作以及随时随地可访问性。
在AIGC时代,我们也在思考是不是会有一些新的内容创作工具的出现。每个人都会有这样的写作的场景,有些任务会很紧张,没有足够时间完成,另外很多时候被领导或者客户安排了任务,没有相应的灵感,不知道该从何下笔,即使写了,写出来之后因为各方面原因,个人写作技巧也不是很好,会浪费大量的时间。因此,我们也会感到非常焦虑或者带来一些压力。
针对这个,我们最早的时候涉足内容处理领域,在2015年基于语音转文字技术开发了一些APP和网站,能够很快速的记录,便于分享成为了可能。在所有记录方式中,记录方式有很多种,可以采用手写或者使用录音,录音有一个问题录是非常容易的,事后回听非常痛苦,这场会议多长时间就花费多长时间。
过往,我们跟很多用户做一些交流,他们会给我们反馈。我们把语音转成一个文字,会后他可以看相应的内容,可以快速的浏览,他想基于此做一些采访稿或者歇一歇会议纪要之类的,更深层次的问题。基于这些,刚好AIGC认知大模型的出现,为我们解决这一类问题带来了新的机会。
我们在5月6号讯飞星火发布的时间,发布了希望讯飞写作的产品,最早的时候这个产品展示了一段录音一键成稿,不管做采访还是开会,需要上传一段录音帮你生成新闻稿,或者有这样一段录音帮你生成一篇会议纪要这样的一个场景。随着多个版本不断的迭代,对话写作、模板写作、写作工具,还有个性化素材是我们的四大核心功能,能够帮助用户更好的完成自己的写作,让你更会写。
具体来说,第一个写作模式就是对话式写作,从后台去看,很多用户还是很乐于使用对话式写作的,这个可以很好的激发灵感以及帮助你做一些头脑风暴,让你获取更多的信息,方便你后期的写作。
我们也围绕对话设计了一些方便你写作的菜单提示,以及方便你完成多轮交互。对于用户来说,带来很大便捷,使用起来有很大的发挥空间。我们还针对营销、职场、新闻、学习、创作各大类的场景,订制了很多模板,方便不是特别熟悉的用户能够快速完成自己写作的工作。
写作本身除了产生相应的内容,过程当中还需要做一些校度以及改写或者摘要,我们提供了规整、摘要、改写、扩写、续写等针对写作场景的工具,方便更快速的写作。
我们把讯飞写作和记录相应的产品做了打通,提供软硬件一体的方案。目前的产品除了提供在线的C端访问的端口,也提供B端或者G端定制化解决方案。
我们希望通过之前的AI感知的技术,以及认知大模型相关的技术的结合,为企业或者各种组织个人提供生产力、效率的工具,激发大家的想象力,我的分享到此结束,谢谢。(作者/杜志强,编辑/钟毅)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。