首页 > AI资讯 > 最新资讯 > 大模型战争:智能体成关键,刷榜风光不在

大模型战争:智能体成关键,刷榜风光不在

新火种    2024-12-10

图片

2025年被认为将是智能体(Agent)落地元年,客户更看重智能体的效果,生态各方为此已在摩拳擦掌。

文|赵艳秋 周享玥

编|牛慧

智能体采购,正在成为市场热点。

“如果说2023年项目中标主要围绕智算中心、模型中台建设,那么从今年下半年起,众多客户的招标内容全都转向应用,且越来越细分。” 众数信科联合创始人汪中告诉数智前线,智能体开始走上台前。

智能体已成为客户、大模型企业以及各类服务商关注的核心故事。甚至一家企业能把智能体做好,就能越过大厂,成功中标。

对于大模型企业而言,智能体技术及工具链的支撑能力已成为基本要求。若在这方面表现欠佳,大概率难以与其他模型竞争。单纯靠刷榜体现的优势,如今已很难得到客户认可。

不过,业界对于智能体的定义、涵盖的具体内容,尚未达成共识。有人认为OpenAI 推出的 GPTs 是智能体;也有人认为,只有能调用工具的才算是智能体。从形式上说,不管对话机器人还是各种形式的大模型应用,从广义上都属于智能体范畴。

但有一点是业界公认的,那就是智能体必须能切实解决业务问题,至少在降本增效方面要有 10 倍、20 倍的提升,才能获得客户认可。因为业界越发意识到,大模型模式更难实现商业闭环,单纯的烧钱模式基本难以为继。

而业界这种认知,不仅重构了软件架构,甚至在促使大模型生态企业重塑了商业模式。正如王坚博士所说,AI 不应被视为工具的革命,而应被当作革命的工具。

01

“客户要求10倍~20倍效果”

“你说电商直播数字人好,那你就帮我卖东西。一单二三十元,我分你两元。”从事生成式AI虚拟人研发的中科深智CTO宋健告诉数智前线。在电商领域,今年客户在购买工具时变得格外谨慎,他们更倾向于按照效果付费,采用分润或CPS(按销售付费)模式。宋健预测,到明年,他们的直播电商数字人客户可能 100% 都会采用这种模式。

“国内外智能体存在很大差异。国外可能仍类似于传统 SaaS 模式,只是利用智能体重构了以往的软件架构。” 宋健表示,国内的情况则更为激进一些,在一些竞争激烈的行业,比如电商领域,不仅重构了软件架构,还重塑了商业模式。

这是因为客户关注的是智能体能否切实解决问题。“无论是降低成本还是提高效率,综合起来至少要有 10 倍、20 倍的提升才行。” 宋健进一步解释道。

图片

“客户现在对大模型技术已经祛魅了。”众数信科汪中向数智前线坦言,这些客户从之前单纯的基础性采购,转变为以应用效果为导向,要求智能体在降本、提效或拓展新业务方面创造价值。

“客户不关心你是怎么实现的,只要看效果。”汪中说。目前行业内的采购模式通常是,技术厂商先迅速为客户进行一个 PoC(概念验证)场景验证,虽然语料范围可能较小,交互形式也较为单一,但要证明能够完成客户场景中的业务逻辑,并运用客户专属的业务知识。之后,客户才会启动采购流程。当然,他们也愿意为这些创新投入一定成本。

众数信科最近做的一个PoC是气象部门的紧急预警方案助手。厦门每年都会遭受台风侵袭,气象部门预测后,需要向港务局、城管等多个部门发送应急通知。这些应急报告原来需要4个专家花费3个小时才能完成。PoC的演示效果显示,借助助手,只需1位专家1小时就能完成,效率大约提升了12倍。

在另一个案例中,原本无法实现的事情,现在成为了可能。在高校学生培养计划中,存在大量评测维度。如果依靠现有的编程技术,针对上万乃至数万学生,只能进行一些通用评测,很难实现个性化定制。在这个案例中,针对课堂环节,多个智能体协同合作,实现了创新。例如,有的智能体负责转录授课语音,有的进行授课水平的分析对比;有的生成随堂小测试卷,有的现场批改试卷;还有的针对每个学生的薄弱点,进一步推荐学习材料…… 因此,在学生评价系统中,新增了多个评测维度。

“每一步背后都有智能体的支撑。” 汪中总结道,随着基础模型能力的发展,智能体的能力和形态更为丰富,已经初步具备协同的基础。汪中说,他们在实践中认识到,每个智能体都要扮演一个人类的社会角色,进行社会化分工并有产出,进而有可能形成群体智慧。智能体不再是单一的工具,未来也不仅仅是单个超级智能体的出现。

为了达到这样的状态,智能体需要具备三个主要特征:能够进行交流和理解;依据反馈和结果进行反思和自我规划;与外部能力单元,如业务系统、其他智能体、工具级应用等进行互动和协同。

在智能体落地应用过程中,客户从购买产品向购买服务的转变趋势愈发显著。智能体与以往信息技术的不同之处在于,它需要持续优化和调整,而目前客户完全依靠自身力量实现这一点,还存在难度。汪中发现,以规模在200万元左右的项目为例,后续每年服务费的占比已从传统信息化项目的 10%~15% 提升到 25%~30%。

而在竞争更为激烈的电商领域,变化更是翻天覆地。宋健注意到,电商直播数字人的迭代速度已经以天计。一旦从销售工具转变为提供服务,涉及的环节会变得极为繁杂。例如,需要密切关注平台的各种规则及其调整变化;之前那种研发、产品和业务相互分离的模式已经行不通了,现在必须协同作战,技术人员要深入一线,每天查看数据、分析运营情况,进行优化迭代;当优化措施不再奏效时,要果断更换产品、调整客户群体。“CPS 模式的优势就在于,各方更容易达成共识。”

02

生态全都动起来了

在智能体的落地巨变中,虽然大厂仍是当下的主要推动者,但人们认为,由于智能体更看重对客户需求的响应,未来行业智能体的产出来源主要将是两类玩家:

一类是有AI原生能力的服务商。另一类则是行业传统信息化服务商。智能体的落地并非易事,核心技能有业务场景遴选、知识萃取、智能体训练和编排。如果不了解业务场景以及大模型的能力边界,那么在技术响应、经验和效率上就会非常低。这需要人工智能人士和业务人士的双向奔赴。

而大厂在这一过程中,将扮演生态链普及角色。百度、阿里、字节、腾讯等大厂均推出了一站式智能体开发平台。他们走的是标准路线,目的是降低智能体落地门槛、应用广度和深度。比如,无论百度、智谱还是浪潮云,最近发布的新品,都在关注用智能体接管手机等设备的能力,实现一些拟人化操作。

“大家目前都在基于自身大模型,构建整体的智能体生态。”IDC中国高级分析师杨雯告诉数智前线,差异在于各家应用场景、数据积累不同,发力的优先场景和方向选择也有所不同。业界观察,这些企业在智能体支撑策略上差异也较大:

业界反馈,百度生态布局上覆盖较全,有基础模型,APP builder、Agent builder平台,也有对应的硬件如一体机,可直接在客户机房中部署。百度也支撑联合方案开发,定制化产品适配。业界分析,这与李彦宏号召业界不卷模型、卷应用有关。

一些人士建议,千帆平台可以加强除文心之外的商业化模型纳管,并支持更多常见互联网服务的插件开发。

图片

在智能体方面,今年11月,百度推出工具流Agent。“Agent去年一出来特别火,但很快一盆冷水泼下来,大家发现很难用起来。我们的客户里,90%是RAG,10%是Agent。”千帆AppBuilder产品负责人朱广翔告诉数智前线。因为要完成一个企业级任务,可能需要几步甚至更多,如果每一步准确率是95%,多步骤下来,衰减将非常快。它没办法支撑长思考和推理。采用工作流方式,专家把流程描述好,Agent就会稳定很多,会更加落地。

阿里的通义千问模型能力在国内较强、反馈好,其开源模型在业界应用较多。阿里更多通过云端形态支撑应用,私有化支撑较少。这可能与阿里云的“AI驱动、公共云优先”战略有关。在智能体产品方面,阿里通义实验室新推出了自适应规划的多模态检索智能体OmniSearch,能模拟人类,将复杂问题逐步拆解进行智能检索规划。

字节目前在大力推广扣子私有化部署产品,即今年8月推出的HiAgent企业专属AI应用创新平台。与年初打响大模型价格战异曲同工,这次仍通过价格战,抢占市场。不过,它目前还不搭配模型,即字节豆包模型还没有私有化;不做应用,没有硬件,尝试基于HiAgent平台教会客户去搭建Agent应用。它的打法和支撑条件还有待体系化,这与其刚刚启动大模型私有化业务线不无关系。

图片

而腾讯在智能体上的布局,也和其在大模型落地上优先赋能自身产品矩阵的“全家桶”策略类似,更加关注与自身拥有庞大流量的自家产品的结合。比如今年9月,腾讯元器上线的新功能,就支持公众号运营者自主打造专属智能体应用,在公众号内提供陪伴、互动、答疑、知识交流等智能化功能,目的是提升用户体验和公私域运营效率。

图片

除了大厂,“AI六小虎”的智谱AI最近不断更新智能体技术。智谱的优势在于科研能力较强,一些开发者反馈,其模型的某些性能,超过了通义千问。但目前生态方面的支持还有待加强。

在前不久召开的智谱Agent OpenDay上,智谱CEO张鹏表示,Agent可以看作是大模型通用操作系统的雏形,理论上,可以将其推广到手机端、PC端、车端等各类智能设备上,实现基于大模型的互联互通。

图片

“将来的智能体,一定是跨系统操作的,这是0跟1的区别,而不是60分和70分的区别。”一位资深行业人士观察,跨系统、跨App的能力,目前已成为兵家必争之地。

中国电信在今年9月开始智能体平台的开发,近期展出了星辰智能体应用平台。中国电信相关人士告诉数智前线,目前针对政企的标杆项目正在打造之中。

图片

虽然大厂动作不断,但业界期望他们支撑智能体的速度要更快。“目前的速度无法跟上广泛的客户需求。更多业务逻辑没有充分体现,也就是客户专属知识与大模型技术的结合问题,这也是业界在落地上非常关注的。这侧面说明,大模型企业向客户方向靠拢,尚需一个过程。

03

智能体,何时爆发?

智能体的大方向已成,但何时能够真正爆发?

多位行业人士均向数智前线表示,这很大程度取决于模型能力的发展及市场教育进程。

“我们有一个简单判断,GPT5什么时候能出来,会是一个很直观的对标时间点。”众数信科联合创始人汪中说。

智谱AutoGLM 技术负责人刘潇也告诉数智前线,去年智能体还只能满足用户10%-20%的预期,用户就不太愿意买账,今年达到了50%-60%,一些用户开始意识到这件事情有用,而当智能体能满足用户70%-80%的预期时,应用铺开的速度将非常快。他判断大模型能力达标大概还需半年。

中科深智CTO宋健则表达了不一样的观点。他认为,Agent要真正爆发,必须真的渗透到行业里头,但To b链条的爆发,“明年应该还到不了特别大的规模”。

IDC中国高级分析师杨雯也告诉数智前线,于B端来说,若无法彻底解决大模型的幻觉问题,达到100%的精准度,大规模应用仍然难以实现。智能体爆发,预计可能要1至1.5年时间。

“目前而言,智能体仍处于市场混战阶段,距离成为终极入口标准还有一定的路程。”杨雯说。

但不可否认的是,面向这一确定的方向,处在智能体爆发前夕的玩家们,无一例外,都在通过各种工程化的能力和一系列技术,弥补模型能力不足,提前抢占先机。

“我们测试过大量基础模型,它们的Function Call能力在10个工具里去选,还是比较准的,一旦超过10个,准确度就大幅衰减,但在实际的应用场景中,执行步骤大概率都超过了10个,为了更好的实现业务可控性,我们首创了基于状态机的智能体workflow(工作流),在保证智能体自规划、自治性能力不受影响的前提下,实现业务的精准可控。”汪中说。

智谱刘潇也透露,他们正通过更好的强化学习策略,让智能体能够执行更长的步骤操作。

业界目前也都在研究工作流。“正因为有了工作流,我们发现虽然只增加了一层,但是Agent的落地增长就非常快,能看到很快到两成。”百度朱广翔说,预测明后两年,Agent会逐渐超过RAG应用,因为RAG场景较少,只是问答;但Agent可以实现客服、营销、企业调度、一站式平台,天花板更高。

有行业人士认为,智能体的应用可以至少分为从低到高三个应用层级,目前市场上已经出现不少初级应用和中级应用,高级应用则还需进一步实现。

比如豆包、kimi、文小言等,被认为可以看作是最为初级的智能体。它们具备简单的语言交互和任务理解能力,听得懂人话,能够根据指令,去执行一些简单的操作。“目前绝大多数的智能体是单智能体的初级应用,包括很多GPTs,能够简单的做问答等任务执行。”IDC杨雯说。

中级应用还要更深一层,展现形式已经脱离单纯的Chatbot形态,不再仅仅是对话框模式,规划能力和复杂度也进一步提升,使用的工具不再是联网搜索、天气查询等简单插件,而是需要有对应场景内的专业插件和能力,能完成更复杂的场景任务。

“比如智能客服,就是非常典型的一个Agent应用,比以前可能会有10倍甚至20倍的一个变化,现在我们接到的很多电话,其实都是新的Agent打出来的,你跟它聊半天,可能还以为它是个真人。”宋健说,而且,与传统客服相比,软件设计也变得更加简便。

“第三个级别,也是我们现在在努力去实现的。它除了更丰富的交互形态,能够完成复杂任务,还会额外再增加两个标签。”汪中告诉数智前线。

其一是能够了解场景背后的业务逻辑和知识脉络。“它可能不再那么通用,但它的专业性更强。而如果没有,它还会主动去寻求这些行业知识的支撑。”

其二,从插件和工具的使用能力上来说,它能够读懂现有的业务系统,将现有的业务系统作为其能力插件来源的一部分,而不再只能使用为它定制的插件。

汪中举例说,他们正在与船舶货运公司进行港务调度助手的研发试点,在他看来就是一种高级应用。

一艘船靠岸后,往往需要进行卸货、转运、洗舱、船员登记、物资补给等大量工作,原来这些工作主要靠人工去安排和调度,再登记进入车辆管理系统、补给管理系统等对应的若干个系统里,给到对应的执行单位执行。而现在,客户提出,希望用AI智能体来帮助现场员工,在繁杂的信息流和工作流中,由智能体进行初步的信息收集、分析、业务建议,成为现场员工的“数字同事”。

当然,更高级的应用,仍然有赖于模型能力和工程化能力的提升。

原文标题:大模型战争:智能体成关键,刷榜风光不在

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。