首页 > AI资讯 > 最新资讯 > 对话智谱 AI CEO 张鹏:AIAgent是重要新风向,大模型竞争已步入混战后期

对话智谱 AI CEO 张鹏:AIAgent是重要新风向,大模型竞争已步入混战后期

新火种    2023-11-14

作者 连冉

编辑 郑玄

相似的技术路线、商业策略以及愿景,智谱 AI 一度被称为最有 OpenAI 气质的中国公司。

作为首批网信办批准向公众提供大模型产品服务的公司之一,在近期完成 B-4轮 融资后,智谱 AI 已经累计获得超 25 亿元融资,成为 AI 赛道备受瞩目的独角兽。如今,智谱 AI 的团队有 400 余人,其中七成是研发人员,同时,核心团队还新增了「智谱首席生态官」刘江——

10月27日,智谱 AI 在 2023 中国计算机大会(CNCC)上发布了新一代的瞄准 GPT-4V 的中英双语对话模型 ChatGLM3 、国内首个具备代码交互能力的大模型产品「智谱清言」,并在其MaaS 平台「智谱AI开放平台」推出了新的商用部署方案:ChatGLM-turbo 版本,其 API 价格相较于直接部署 ChatGLM 降低了 50%。

考虑到OpenAI在技术上的领先性,智谱 AI 在产品研发上还是与其有相似之处。此次ChatGLM 3 系列模型发布后,智谱 AI 更是成为了目前国内唯一一个有对标 OpenAI 全模型产品线的公司。

智谱 AI 对标 OpenAI 全模型产品线

在新模型发布后,智谱 AI CEO 张鹏和极客公园聊了聊他们的近况和一些行业认知。谈到与ChatGLM2相比,智谱 AI 此次瞄准 GPT-4V 推出的 ChatGLM 3 性能更加强大,接入了具有多模态理解能力的模型 CogVLM、代码增强模块 Code Interpreter、网络搜索增强模型 WebGLM,并增强了语义理解和逻辑理解能力,实现了若干功能的迭代升级。

至于行业格局,在张鹏看来,「模型侧已进入混战的后期,格局会慢慢地清晰下来」。

以下为对话全文。

AI Agent 新风向

极客公园:这次发布的新模型在性能表现上主要有哪些提升?

张鹏:10 月 28 日发布的内容其实之前已经分批次放出来了,只是没有特别正式地向外界表示。提升的话,最关键的是整体上的性能提升。因为我们每一代模型相比上一代都会有一个阶梯式的性能提升,提升程度的话,最低也会有 Benchmark 上百分之十几的提升。按规律来说,这种上升曲线是会趋平的,因为越往后提升会越小。

但我们三代相对于二代的提升,比二代相对于一代的提升其实更大,这个是挺难做到的一件事情。这一点上我们也确实花了很多时间和精力,效果也非常的不错。然后性能的提升其实也涉及到工程的效率问题,这个就跟商业化有关系了。

真正商业化的时候无非就考虑几件事,第一个是成本,第二个是收益,价格和成本之间就是利润空间,所以控制成本也非常的关键,这个是可以帮助你去扩大利润空间的一个很重要的因素。所以说,推理效率提升了,我们成本也会降低,用户体验感也会更好。

这次我们还把智能体的能力提升也融合到了新一代技术里面。智能体它是基于底座的能力和一些特定的能力,去让模型能够帮助人去解决更复杂的需求和更复杂的问题的一项技术,它的能力是比较面向应用的。

就像一个人一样,如果他只会回答问题,就算他的知识再多,他的回答问题再完整、再精确,他也只是一个问答机器。如果它不能做,不能利用别的东西,去完成一件复杂任务,那么它的能力始终有限,所以在这一点上来说,我们也自研了一些技术,包括怎么让一个模型的智能体的能力大幅度提升。

极客公园:围绕 AI Agent(智能体)的这种新风向,后续还会产生一些什么新的行业机会?

张鹏:AI Agent(智能体)的应用非常有空间和前景。原来模型的能力大多数都是对标 ChatGPT 那种对话式的,它不能做一些复杂的事情,只能回答问题,如何扩展它的能力?之前想过很多招,比如说 Plug-in platform 其实就是在扩展模型的能力,让它能够和现有的这些外界的系统去对齐,能够去很自然、自动地去对接。那么 AI Agent 的这个能力其实是把这些东西都融合到一起,从模型层面来实现复杂任务的拆解,像人一样进行规划。

比如我有 plan A、plan B、plan C,plan A 我要分为 step one,step two,step three,一步一步的去执行。 step one,我可能要去 call 一个外面系统的数据库,step two,可能我要去做数学的一个计算,step three,可能我们需要去把这个计算的结果用一个自然语言去 wrap 一下,形成一个输出,或者是形成一个表格,它是会有这样的一些能力,来解决这些问题。

极客公园:那怎么看待 AI Agent 的未来? 张鹏: AI Agent 很重要。未来大模型能不能在实际应用当中产生更大的价值,或者说把它变成一个理想中的所谓的「大脑」的角色,而不是停留在 Q/A bot、Chat bot的角色,很大程度上要看 AI Agent 的发展如何。 极客公园:距离它真的落地到实现你刚刚说的那种功能,大概需要多久的时间周期?

张鹏:会是一个加速的过程。因为 AI Agent 这个能力,从学术研究提出到现在大家可以体验的过程是非常快速的,我相信后面真正到实际应用当中的过程会更快,因为现在你看它已经能做到一些事情了,虽然可能还有些瑕疵,有一些没有不完美的地方,但我觉得随着这个研究的深入,最终会加速实现更广泛和深入的应用。

共性问题在于认知的参差

极客公园:智谱这次发布的新模型,是更注重行业的能力,还是说通用的一些能力? 张鹏:还是会 focus 在通用能力上。我们刚才说的所有这些能力都是通用型的。比如跨模态能力,我们没有指定说我去读医疗图像还是读取什么图像,我们从来没有这样定义过这件事,它是个通用型的能力。 极客公园:后续商业化的规划是怎么样的? 张鹏:基座的这个能力真正到商业应用里面去,或者说行业应用里面去,它中间还是会有一定的 gap ,虽然这个 gap 在不断的变小,但还是存在的。那么这个 gap 怎么去弥合,要不就是模型能力不断的往上涨,去接上它的这个需求,要么是中间加上一些产品、系统、解决方案等这样层次的一些工作去弥补中间的 gap。 极客公园:在大模型领域做 B 端市场,给企业用户做定制,会不会可能就是陷入到和上一波 AI 四小龙一样的处境里? 张鹏:我们肯定不想这样,过去已经证明了,就是说对于 AI 技术公司来讲,这样做是行不通的,当然也还有一些其他的因素在里头就不展开了。

我们现在在做的事情是做好我们的底座、基座和赋能基础能力。然后行业的这些应用,我们交给我们的生态,交给我们的合作伙伴,甚至我们可以交给客户,如果客户自己的技术能力如果够强,我可以交给你,你自己去建。 极客公园:如果从行业的角度看的话,国内这波大模型创业公司,在商业化上有没有一些共性的问题?智谱 AI 这边会去怎么样去规避这些可能的挑战? 张鹏:是有一个比较抽象的共性问题,是大家对AI助手技术的认知参差不齐。首先,大家对它的能力上限和下限的认知,很难完全达成一致,需要一个磨合过程。如果对能力有过高预期,在交付使用过程中就会碰到许多困难;如果预期过低,则会觉得AI助手没什么用处。这些可能都会让人很难真的去接受这项新技术。所以,认知预期不一致是比较普遍的问题,这个就需要通过磨合达成共识。

基于这样一些很新的技术,我们想要打造的生态,需要大家在整个大的生态版图里面互相去磨合的。那么,哪些是面向客户做解决方案的?他们是要怎么样去引入这个技术,还是他们自己原创去做这个技术,自己去摸索这个技术?还是说他们要基于我们这个能力去做这个应用解决方案?其实大家的想法是千奇百怪的,差异很大的,这个也是一个很实际的问题。 所以我们在外头跟大家聊的时候,或者说做这种演讲的时候,都会强调这件事情,我们希望的是一个生态的打法,前面提的比如说行业性的行业模型、垂直模型或者是行业性的应用的空间我们是留给我们的生态合作伙伴,我们一起来把这个空间扩大。

通过这种方式把客户价值的天花板持续往上抬,这是我们想要做的事。而不是说这个饼就这么大,大家在里面挤来挤去,你抢我一口,我抢你一口,这个事情永远做不大,而且大家都会很累,所以说不要内卷,要反向外扩,这样大家就会舒适一些,这是个很自然的想法,当然要做到这件事情还有很多困难,比如首先达成共识就很困难。

极客公园:各家还是想要凸显自己。 张鹏: 当然大家最终都会找到自己在这个版图当中的生态位。在这之前,他会担心被别人挤掉或者被别人侵占掉,这是很自然的一个现象,所以他会有些选择,总觉得好像得把所有东西都把握在自己手里,但是真正能不能把握得住,也许他就是得去拿脑袋往前拱一拱试试看前面是堵墙还是个什么东西,就是得试试看,这也是很正常的心态。

只是我们希望,尽量跟大家以一种开放的心态,去沟通和交流,去建立一些共识,尽量磨合的过程不要损耗太大。 极客公园:那你们是怎么去让这个磨合变得更顺畅一些的? 张鹏:主要是沟通。第一个是通过面对面的交流或者通过演讲、媒体来输出一些观点、想法和态度,让大家对我们的理念和做法有更多认识。第二个是通过一些已有的圈层,或者是社区,比如说开源,我们把我们的技术开源出去,把我们的一些经验,一些技术上的积累,一些资料分享给大家。

这样大家也会更深入的去理解这件事情它背后的价值、难度、成本等一系列的事情,然后根据这些他们自己会做一个判断,自己能做到什么些事情,又很难做到些什么事情。还有一个是跟合作伙伴建立生态合作机制,可以针对性地结合他们所处的行业和能力需求去做一些技术培训、联合创新这样的工作,来让合作更加顺畅。

极客公园:那在竞争上,大模型创业公司如何在商业化方面与巨头竞争?怎么看待数据、场景、交互等因素的关键程度?

张鹏: 大公司肯定有大公司的优势,比如它的资源、市场的积累,这些方面其实大公司的优势比较明显。那么创业公司的优点就是它比较灵活,可以快速变化,好掉头,还有一点就是比较专注,可以把所有的资源和精力全投注过去。肯定有大公司的优势,比如它的资源、市场的积累,这些方面其实大公司的优势比较明显。那么创业公司的优点就是它比较灵活,可以快速变化,好掉头,还有一点就是比较专注,因为它们没有像大公司内部的各种的板块、业务线条等等这些的制约,就是它可以专注在某一件事情上,把所有的资源,把所有的这个精力全投注过去。

开源闭源并不矛盾

智谱AI模型开源时间线

极客公园:刚刚也提到了开源,之前我们采访月之暗面 CEO 杨之麟的时候,他就说可能在未来,超级应用一定会诞生在闭源,因为就是它能够更加深入的去开发。关于这个你怎么看? 张鹏:开源和闭源的关系,至少我个人来看,从来不觉得是一个完全对立的事情。

开源是一个可以保持行业或者技术领域活跃性的一件事,可以保持生态圈的多样性、活跃性。因为开源社区的参与者都比较活跃和投入,都是相对愿意去做贡献的一群人,他们的讨论,他们的交流,还有对开源项目的代码贡献,经验贡献,其实也有帮忙推动技术探索,提出更多的选择和可能性,也就是我们也会从开源中可以获得很多反馈和营养。

闭源的话更考虑商业价值的稳定性、服务的持续性和安全性,因为企业有一定的主体责任,也有商业回报的诉求,这个是对等存在的。

总之就是,开源会保证生态,然后闭源会保证商业服务的价值,两者之间其实并不矛盾。

极客公园: 超级应用还是会产生在闭源项目里。 张鹏:当然很难想象一个超级应用是直接建立在一个开源项目上,它可能还是要走商业版本去做,因为它涉及到的事情很多,而不是说开源一个项目,或者说扔出来一个产品就可以,如果没有后续的运营维护等等这一系列的服务,怎么可能做得成超级应用? 当然超级应用并不是未来的唯一解。超级应用当然是大家都想做的事情,这个毫无疑问。谁不想做这样一个东西?但具体这个超级应用是啥,现在也没人能说的清楚。 极客公园: 除了超级应用,还有一些什么可能的比较好的解法?

张鹏:这个就跟我们本身的发展战略也有关系。一个是像应用这一块,我们也有在做App,我们的切入点就是像智谱清言这种 AI 助手,这个方向可能会是未来的超级应用之一,毕竟这个需求还是特别明显。 另一个是我们还是更多 focus 在做基础模型、通用模型这一块。从商业落地的场景上来看,我们还是会以基础模型为基础,去赋能上层的比如行业、应用、客户等等这些层面。

ChatGPT 3.5 并非 Golden Rule

极客公园:最近很多国内厂商都标榜自己的大模型达到了 3.5,从技术角度来看国内顶尖模型是否真的达到了 ChatGPT 的水平?有一种说法年底能否达到 3.5 会是国内这波大模型创业的分水岭,你怎么看? 张鹏:国内这些当然也在看,但是我们其实并没有特别的去对标过。我们也从来不认为说 ChatGPT 3.5 是个终点,或者说是个试金石什么之类的,它只不过是这个过程当中的一个 check point,就是大家在这个点上 check 一下,有一个对标,就是看看能做到什么。

因为Open AI 跑得快,它跑过去了,留一条线给你,你什么时候能跑过这条线,或者像跳远一样,跳到一个及格线或者一个达标线,这样的一个概念。但这个线也不是说特别精确,只是大家需要的一个激励自己或者检验自己进步的一个标尺而已。 所以你不能把它当做一个 golden rule 或者是用来 check 的一个精确标准,当然大家愿意去拿一个比较统一的标尺去量这个事情,也是个好事。那怎么实打实地拿出 evidence 来证明你真的做到了,那又是另一件事。 极客公园:那你觉得这个分水岭会是什么呢? 张鹏:从技术或者说行业发展的角度来看,我没觉得这件事情有一个这样的分水岭。因为技术始终是不断向上发展的。这个东西只是一个标尺,大家共识里面的一个标尺,标识越共识,大家越容易理解,但并不代表这个事情它就是个达标线。也没有人说你做不到 ChatGPT 3.5 ,你就别来做了,或者是也拿不到钱或者什么之类的。

而且不能简单用 ChatGPT 3.5 作为唯一标准来评判其他模型。毕竟每个模型有自己的定位,不应该片面用一个模型的能力水平来评判其他模型。

不同的模型可以解决不同的问题,服务不同的需要。应该鼓励多样性,而不是要求所有模型都追求通用性。每个模型都可以通过自己的方式找到价值所在。一个模型的成功与独特之处,不是只用能力高低就能简单划分出来的。

这么来说吧,可能除了一个共识的标准,还有大量空间可以进行创新探索。

极客公园:技术肯定是不断向前发展,那从公司的视角怎么看? 张鹏:我觉得这个事情越往后推,肯定是趋向一个总体稳定的过程。 昨天其实也有人问,最终大模型的这个厂家会剩下几个,大概的一个共识是做通用基础模型的不会超过10家,因为这件事情太耗钱,技术密度太高,未来也不需要那么多通用的基础模型。因为同质化比较严重的话,需要那么多干嘛?

除了这些通用技术模型以外,其他的比如Midjourney,Character AI 这一类的行业的,或者一些专业的模型和应用,还是会不断的涌现。

大模型竞争已步入混战后期

极客公园:怎么看待当前大模型行业的竞争格局? 张鹏:基本上在模型本身这一侧的话,现在是混战的后期,格局会慢慢地清晰下来。 极客公园:现在大模型创业的环境与之前最火热的时期相比有哪些变化?投资、政策等因素又带来了哪些挑战? 张鹏:我比较赞同红杉资本的公众号有篇文章讲的,现在进入到了一个新的阶段,这个新的阶段跟之前那个阶段略微会有些差异。

之前火热是大家都没把这些事情想的特别明白,投资也好,政策也好,市场的期待也好,大家是把它胡子眉毛一把抓的。不管你是做基座模型的,做行业模型的、还是做应用的,反正只要是跟这个沾边,都算到这个里头。

但是到了现在这个阶段,大家逐渐的会把这些尝试分开来看,谁是做通用的,谁是做行业的,谁是做应用的,可能慢慢地就会把它分清楚。 极客公园:在这样的一个背景下,你认为哪些方面的差异会让智谱AI能在行业内站稳脚跟? 张鹏:这个事情对我们来讲其实是比较明确的。首先第一个我们对这件事情的认知和目标非常明确,就是聚焦在基座和通用的基座模型上、技术模型上。然后行业应用、商业落地就用生态式的方法来做,当然核心的还是我们自己的技术。随着时间往后,大家对我们的认知也越来越趋同和一致,这是个好事。 极客公园:在你看来,这次新模型意味着智谱 AI 在大模型领域将达到怎样的技术地位? 张鹏:我们基本上是跟自己比和跟 OpenAI 比,因为 OpenAI 是做的最好的,我们基本上是这样来比,那至于国内的水平,大家各自心里有把尺可以去量。 极客公园:智谱 AI 下一次在模型上的迭代会是在什么时候? 张鹏:我们一般的迭代周期就是 3 到 6 个月一代。上次二代是 6 月底,这次是 10 月底。

极客公园:现在你们的团队规模?

张鹏:就是大概的规模是 400 多人,当中有 70% 左右的研发,当然这个研发是比较宽泛的概念。

极客公园:在27号的现场演示过程中,智谱清言在代码理解上出了一些bug(输入了「生成一颗红心」的代码,最后给出绘画结果却是两条函数),所以智谱清言在准确度上的水平是怎么样的?

张鹏:准确度肯定在持续提升。当然这个具体的成功率或之类的,你可以去试一试,可能每个人自己的体感不太一样。根据测试的用例、测试的方法周期范围,只能是无限的去逼近准确,但也没办法做出最准确的一个测算。虽然整体成功率还是比较高,但是现场演示的确会有一些风险,这个也没办法,我们还是希望把真实的演示呈现给大家。目前就是这样一个情况,真实的演示也反映技术本身。

理想状况下的「生成一颗红心」 极客公园:之前有其他大模型出现了不实的一些 AI 生成内容,像这种大模型的幻觉问题上,你们这边是什么样的进展? 张鹏:这个事是这个“老大难”问题,现在也没有人说能够有办法把它根除掉。我们在讨论这件事情的时候,大部分还是说得从技术上想办法去解决这个问题,比如引入知识,或者引入这种符号的一些方法,来帮助我们解决这个问题,也可能 super alignment (对齐)可以解决这个问题,当然 super alignment 是一个整体上的大的方向,它里面具体用什么方法,还是需要继续去尝试。

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。