大模型端侧落地,扩展超自动化边界
作者|ViniWang
随着人工智能技术的不断发展,大模型部署已成为重要话题。
过去大模型在云端部署,可以帮助企业更高效地利用资源,降低成本,提高效率。随着人工智能技术不断进步,随之而来的安全、隐私、规范和可持续发展问题也备受关注。
在这种背景下,大模型端侧部署也应运而生。
什么是“端侧”部署?“端侧”部署,是指模型服务并不是部署在云端,而是直接存储在手机设备内部的芯片中,仅利用芯片的算力生成结果。这样不需要联网,也不用上传到云端。
相比云端部署,大模型端侧部署有哪些优势?又会为“超自动化”带来哪些影响?为了回答这些问题,硅星人“未来科技力100人”系列专题策划了一场直播对话,专门邀请实在智能创始人CEO孙林君、来也科技CPO褚瑞、李未可科技合伙人古鉴三位嘉宾共同探讨AI大模型端侧部署,及其如何影响超自动化有关的一切。
大语言模型为何进行“端侧”部署?
来也科技是数字化劳动力领军品牌,凭借其大语言模型赋能自动化解决方案构建的软件机器人,代替人工完成枯燥、重复性高的工作, 解放生产力,帮企业解决数字化转型挑战扩大数字化劳动力规模。
来也科技CPO褚瑞为我们分享大语言模型“端侧部署”的四个认知,以及“云端大模型+端侧小模型”的部署优势:
我们在“端侧部署大语言模型以及端侧大语言模型如何驱动超自动化”方面有以下观点。第一个,大模型驱动的超级自动化应用场景非常多,在实践过程中,我们发现很多大模型驱动的超自动化项目,把它做到70分非常简单,因为现在市面有很多开源工具。
但要从70做到90分,它的难度就会突然增加,就会出现很多难以处理的问题。比如说,一个程序员如何通过一条指令去生成一段程序代码,仅仅在这个事情上,我们就发现这里面有很多很多难点。
第二个认知,我们发现小模型经过微调以后,能够在某些能力范围上媲美大模型。当然小模型,它只能在一定的能力范围内起到作用,肯定做不到全能。第三点,大模型加云端模式到底有什么样的应用,或者说大模型加小模型在云端模式有什么应用呢?
在这种场合下,大模型加小模型在云端可能是容易落地的。或者说,可能是会产生应用场景的:第一个场景大家容易想到的数据隐私。
我的数据不想传到这种云端大模型上怎么办?这是非常常见的一个想法,在这个时候,我可能需要一个在端侧部署的一个小模型。这种情况下,一个端侧部署的小模型,就能把我的任务完成。
第二个应用场景,可能是一些离线场景。比方说,我突然不能上网了,或者说,当我的手机在一个没信号的地方。
在这种离线场景,用云端部署的大模型加端侧部署的小模型。也是可以去相得益彰的。这样,即便在离线的情况下,也是能够取得比较好的效果。最常见的场景就是,我在国外去旅游的时候,我去翻译一下,国外很多地方信号部署不如我们国家好,所以经常出现没信号的情况。那在这种场景下,就需要端侧部署小模型。
关于端侧部署的第四个认知,我们发现其实大模型,它的响应时间很长。如果它的响应时间变长,这样就使得我们,看起来一些很有意思应用,受到时间的制约,而变得很难落地。
比方说推理能力、思考能力、决策能力。它需要人们反复和大模型交互,如果一次交互动不动就需要好几秒钟的时间。这样十几次交互下来,这个时间就长到很难让人接受了。等他推理完决策完,很多时候我们处于一个紧急情况,当我们迫切需要知道答案的时候,大模型迟迟不给反馈,几分钟过去了,黄花菜都凉了。
所以我们认为大模型的响应时间,也是一个非常影响它落地的一个重要因素。这个时候呢,如果有一个小模型,他就部署在我的本地,他的响应时间,会远远快于在云端部署的大模型。本地部署的小模型凭借着它的快速响应,会给我们带来许多便利。
但是我们在云端部署的大模型,它会有它的应用场景的,在云端部署的大模型,我们更强调它的推力和决策能力,还需要端侧部署,帮助它去落地。部署在云端的大模型,负责帮助我们决策、思考、推理。而在端测部署的小模型,可以帮助我们去执行。
大语言模型“超自动化”如何应用?
实在智能是一家通过自研AGI大模型+超自动化技术,领跑人机协同时代的人工智能科技公司。作为中国AI准独角兽和RPA行业头部企业,超自动化解决方案提供商,实在智能结合国产全自研的AI技术与RPA产品,助力政府企业实现数字化改革和转型升级。
实在智能创始人CEO孙林君从“数字员工解放企业生产力”的角度为我们分享大语言模型“超自动化”在现实当中的应用:
实在智能坚持技术创新和产品迭代,曾先后发布三代RPA软件,具备高度的易用性和稳定性。其中,第二代“点选用”IPA模式、第三代“所说即所得、你说PC做”的RPA-Agent智能体产品在全球范围内实现技术超越和赛道领。
说到大模型超自动化在现实当中的应用,以实在智能为例。
实在智能创办以来,就以为全社会贡献100万个数字员工为使命。我们为未来所描绘空间就是,各种各样的数字员工在千行百业去赋能。而数字智能员工,它们和人之间,是一种人机协同关系。
数字员工最开始的形态,是解决人工作当中重复琐碎的工作。随着人工智能的发展,数字员工能称为“员工”,是因为它也有这种智能化的特性,它可以代替人去做一些思考,代替人去做一些决策,它也可以学习人的经验。从人工智能发展的角度来看,未来数字员工,它也一定会走向“智能体”。
这些“智能体”有独立思考能力,它可以通过各种各样的方式,代替人类去进行决策,或者代替人去完成某些特定的工作。所以从业务视角上看,我们就可以把这些“智能体”叫做数字员工——它不仅可以思考,还可以行动,而且可以帮助我们去解决一些问题。
但大模型并不是一个纯粹的产品,它是个离产品差一步的东西,当然它也能代替人去思考,但它能够去帮助人解决问题吗?
它如果能够帮助人解决问题,那它就需要有对任务的规划能力,就需要有记忆能力,需要有使用工具能力,也需要有逻辑推理能力。只有这些能力集中在一起,才会让大模型显得像一个智能的人。
所以这就引出了AI Agent智能体这个概念。比尔盖茨前几天也讲了未来我们跟计算机的交互方式转变。其实这里面有一个隐含的逻辑——随着大模型的出现,随着“AI Agent智能体”的出现,我们人类跟操作系统做的这些交互,可以变得更简单,也可以拥有无限可能。“AI Agent智能体”能做的事情,相当于一个人能做N个人能做的事情,并且效率可能更高。
那我们简单看一下AI Agent智能体的这个框架,首先需要有角色概念,它扮演什么角色?是开发人员,是数据分析师,还是人类助理。
当它能够扮演这些角色,它就需要有一定的技能,而它这些技能其实就是它的一些任务。它这些任务是可以经过大模型的推理去做拆解的。而它的知识会被存在短期和长期记忆里,随时可以被调取。
比方说,我是财务人员,我有很多财务知识,同时我对我的工作流程非常熟悉。我把这些构成了记忆,当智能体要干一件事的时候,比方说财务人员要完成对账,那么它就需要使用一些工具解决问题。
这里就涉及到大模型“使用工具”的能力,然后另外一方面,它又能够对这个环境有所感知,这样才能够不断决策下一个步骤需要做什么。所以这里面不仅包括职责扮演,还包括逻辑推理,还包括工具使用,以及学习能力、记忆能力,这些构成了“智能体”的能力框架。
数字员工就是大语言模型“超自动化”在现实当中应用的例子。
来也科技CPO褚瑞从“逻辑推理”角度为我们分享大语言模型“超自动化”在现实当中的应用:大语言模型推理和角色能力是非常具有想象空间的,我们简单盘点一下,这些能力跟超自动化是如何结合的呢?
其实这里面有很多很有意思的场景。举个例子,比如说,当我们进行文本提取的时候。什么叫文本提取呢?就是我给你一张照片,然后你把这张照片里的关键字段,按照我的需要,给我提取出来。
文本提取原本是个非常简单的问题,不需要大于模型就可以做得非常好。比方说提取发票内容,我们国家的发票样式是高度统一的,所以内容就比较容易提取。但如果到国外,海外发票样式各不一样。
比如说在这张毕业证书里面,出现了一个姓名叫褚瑞,还出现了一个姓名叫温希森,那到底持证人是褚瑞还是温希森的。它并没有一个锚点。当你需要提取日期的时候,你可以看到,这里有一个1979年的日期,还有一个2008年的日期,到底该提取哪个日期呢?
像这些内容的提取,都是需要进行逻辑推断的,这在以前很难做到。但是在今天,基于大模型就可以非常轻松把关键词段提取出来。
还有一个例子,比如说我们经常看到有餐馆有预定电话机器人。当你把电话打过去以后,是机器人接的。这个机器人能帮你做一些简单操作,比方说简单的订餐。但是这个订餐操作,以前做的不是特别好,不是特别好的原因,是由于人说话有时候并不是那么有条理的。
人的自然语言是没有条理的,人说话如果表达非常正规,比方说我要定什么样的座位、定多少人,当把一切表述的都非常有条理的时候,机器人都可以做到,如果人说的稍微有点颠三倒四的时候,机器人就做不到了。那今天大圆模型出现以后呢,在使用不太有条理的自然语言的场景下,机器人也可以很好的为客人提供预定服务。
比方说,当机器人询问订餐时间,这个打电话的人可能不会按照机器人提问顺序来,他会先说我们有7、8个大人,还有2个小孩,最后再说订餐时间是明天晚上。在这个时候,机器人就要作出判断7、8个大人是什么意思。是78个大人吗?总共多少人?怎么推断出来呢?
这是以前客服机器人非常难推理的一点,但是今天,具有推理能力的AI大模型就能很好的推断出来。
这是对话生成这方面,但是大语言模型它的能力,除了自然原处理,还有编程语言处理能力。这方面主要就是,可以给它一个相关的使用命令。它能够根据我们的这个要求去生成一段程序,并且让这段程序能够自动帮我们做一件事情。解决的是今天我们做RP产品。
它有一个很大的痛点,这个痛点就在于它在每个客户都需要重新部署,重新开发,因为每个客户的业务流程不一样。但是AI大模型能根据不同客户,去自动进行改善,去适应客户的业务流程。
目前我们看到了很多场景,但在这些场景里面,都是我命令一下,大模型去执行一下,我命令一下,大模型去执行一下,这些都是人跟大模型进行的单步骤交互。但如果说真的是类似智能管家这种的Agent,当我能把我要求提出来以后,智能管家就能够自动拆解任务,然后自动根据我拆解的任务进行执行的话,目前还不成熟。
大模型“端侧”部署对AR行业有什么影响?
李未可科技是一家基于AI前沿技术研发下一代智能交互平台的企业。
企业围绕 “ AI+AR ” 战略,先通过打造基于自研 AI Agent 打造的李未可 AI 家族数字人IP,又于2022 年至2023年陆续发布了搭载了 AI Agent 智能决策助手的李未可 AR 户外眼镜Meta Lens S1、Meta Lens S3,希望通过垂直场景的培育,让用户真正的感受到 AI Agent + AR 所带来的更为便捷、高效的生活方式。
李未可科技合伙人古鉴从AR行业出发分享大模型“端侧”部署带来的影响以及在行业当中的应用:我分享一下大模型“端侧”部署对AR眼镜行业影响的看法。AR眼镜行业可能会分成两条赛道,一条赛道主攻室外应用场景——可能会在旅游、户外出行、本地生活领域,给大家提供一些信息展示,以及给人们带来一些助手式的“问答式”反馈。
另外一条线路偏VR、或者是MR的。它可能更倾向于室内应用场景,比如游戏、影视、等等。很多就是比如说现有的一些AR眼镜,可能走的都是这条路。在这两个方向的基础上,我们会把我们研发的AR眼镜做到极致轻薄,然后用AI来加持它的交互系统。
让用户可以在室外能够长时间佩戴,除了运动,还有其他应用场景,包括旅游、出行、本地生活。这都是我们的主要应用场景,那我今天主要跟大家分享一下AR眼镜在旅游场景内的应用。
端侧大模型结合AR眼镜在旅游场景的应用上,其实有三块趋势:第一块趋势在于人们的兴趣,人们可能更倾向于去小众独特的景点,喜欢未知惊喜,喜欢景点深度探索,比如说挖掘当地文化。所以我们的AR眼镜,就拓展了一个叫做citywalk的核心功能。
比如说,用户可以去问周边有什么吃的、周边有什么好玩的。所以我们通过很自然的交互来让用户达到深度游览的目的。
这块是我们的核心,这个核心不仅包括数据的内容、核心的功能,还包括核心体验数据、数据内容我们包括,比如说,景区核心数据供给,包括小众特色的景点路线,还有当地美食的一些信息的收集。
还包括路线生成、周边推荐、游览攻略以及路线推荐。比方说,你走在哪,他就给你介绍相关景区的一些信息。那这么多功能其实都是由大模型或AI去串起来的。AI大模型在整个交互体验中,起到非常重要的作用。AI大模型帮助用户去跨越所有的app进行内容搜索。
比如说我可以通过AI去调用地图、去调用美食、去调用住宿。AR眼镜可以更方便的去帮你记录,记录你的视频、记录你的照片。AI大模型可以帮助用户的把指令和意图更好的分发到指定功能里面。
第二个其实是垂直大模型里面,对内容进行加工和整理,主要是内容供给方。第三块我们认为是非常重要的,关于大模型检索生成。
谈及“基于嵌入式设备的多模态AI大模型将进一步推动AI落地”,李未可科技合伙人古鉴给我们分享了他心目中的AI助手的应用:
前两天Google发布了新视频,在Google新发布的视频里,展示了这样的功能:比如说你发很多手势,大模型就可以跟你互动,告诉你做什么样手势,或者对你的手势,给你一些反馈。
我觉得这个跟我们眼镜的应用场景是很贴合的。就是说,当你以低视角方式看见一些图片、看见一些信息的时候。它就会给你给你一些反馈,这样你可以围绕着这个信息去进行提问。
我觉得这个核心场景可以应用在很多方面,比如说教育场景,当小孩学习的时候,比方说学生在物理课上,你如何不断去做一些东西。比如说,我的小孩喜欢玩一些手工东西,这样你可以通过这个设备,可以去不断跟它进行交互,然后它可以给你一些反馈。在这种情况下,整个使用场景,就会觉得非常有价值,也非常有意思。
但我也是觉得云端部署的大模型,可能远远达不到这种交互非常自然情况,无论是反馈时间,或者是推理时间等等,就是因为它是动态模型,如果想要速度反应比较快的话最好也是在端侧部署。
我个人是觉得,明年在针对大模型的端侧部署方面,会有非常大的起色,大模型端侧部署也会加速整个AR眼镜产业的发展。
大语言模型“超自动管家”何时实现?
谈及“未来端侧AI超自动化的发展”,来也科技CPO褚瑞给我们分享了他心目中“贾维斯式”的综合智能管家,何时能照进现实:
我们所看的电影《钢铁侠》当中“贾卫斯式“综合式智能管家现实当中何时出现?我觉得如果在端侧的话,可能时间会比较久。如果云端结合起来让云侧去做推理执行的话,那可能会是在未来两三年。
这种综合智能管家,它经常解决的一问题,是我们在就是日常工作当中所遇到的一些触发性的问题。所谓触发这个问题,是说我们其实很多时候做超自动化。超自动化解决的是一个企业内部的一个历程,这个历程意思就是他已经被提前规划好了,触发性问题并没有被提前规划好,是临时的、突发的,突然出现一个意想不到的需求。
这种需求特别需要一个智能管家来帮我去完成了,比如说做PPT的时候,我要从这边摘十行,在那边复制一行或者粘贴一下,这样不停的复制一行粘贴一下,我自己都觉得很烦。但这时候如果这有个像贾维斯式的智能管家,我只需要告它一声,请它帮我把这些做一下。
你拆解推理完之后,帮我把这事做完就可以,但是今天看起来,我觉得这样基于云端的工具,可能会在两、三年内可能出现。极端的话那可能就时间会远一点,因为确实今天端侧确实都是小模型。而这些功能的实现,不仅依托云端,还要依托芯片的强大的计算能力。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。