怀胎半年“混元”初开，腾讯大模型以慢为快

首页 > AI资讯 > 行业动态 > 怀胎半年“混元”初开，腾讯大模型以慢为快 | 焦点分析

怀胎半年“混元”初开，腾讯大模型以慢为快 | 焦点分析

新火种 2023-09-14

作者 | 邓咏仪

编辑 | 苏建勋

国内大模型混战半年，大厂种子选手中的最后一位，终于出列。

9月7日，腾讯每年一度的生态大会正式召开，大模型当仁不让地成为其中的主角：腾讯发布了自研的通用大模型“混元”，并且展示一系列应用场景。

相比其他大厂蜂拥而上，腾讯已经让市场等待得足够久。“腾讯到底什么时候发大模型？”是这半年来AI圈里的“天问”。

而今年5月，马化腾就在股东会上表示：“AI是互联网百年不遇的机会……我们也一样在埋头研发，但是并不急于早早做完，把半成品拿出来展示。”

哪怕到了6月，腾讯甚至剑走偏锋，先于通用大模型，直接抛出了10个行业，超过50个解决方案。

这样的姿态也延续到混元的发布中。

混元大模型显然走实用派路线。发布会中，花哨的数据、吸引眼球的演示很少，应用场景才是重头戏——腾讯展示了腾讯云、腾讯广告、腾讯会议、腾讯文档接入混元之后的进展。大模型为这些业务提升能力，降本增效，再输出给企业客户。企业还可以通过API调用混元，为不同产业场景构建大模型应用。

腾讯集团高级执行副总裁、腾讯云CEO汤道生

而最具代表性的，莫过于腾讯云CEO汤道生在介绍混元出场时，喊的话是：“混元，正式面向产业亮相！”

这也是此刻的腾讯找到的最好身位。

大厂渡寒冬，腾讯是其中“去肥增瘦”执行得最为坚决的一家。自前年开始，腾讯云就开始调整业务战略，不做总集，回归产品，这些努力都颇有成效。去年，生态伙伴收入占到腾讯云整体收入的三分之一，收入增速是腾讯云的4倍——这也意味着，腾讯在产业中的落地规模实实在在地扩大。

降本增效，本质上是要高质量发展，腾讯大模型同样也会遵循这一战略。做To B、面向产业，是目前比较务实的落地路径。

“更成熟、更可靠”

混元大模型在参数的展示上可以说——相当朴实。没有狂堆参数到万亿，也没有展示打了多少榜，腾讯云只披露了两个数字：超千亿参数规模，预训练语料超2万亿tokens。

千亿参数是当前做通用大模型厂商的标配，而混元的预训练语料规模，则和目前最强的开源模型Llama 2持平。

“怀胎半年”的腾讯，都做了些什么？

“我们在这几个月之内，一直在让大模型在腾讯内部的应用中磨练，把腾讯重要的、丰富的业务场景当成‘磨刀石’。”腾讯集团副总裁蒋杰表示。

慢了半年的腾讯，能占一些做产品的后发优势，但要吸引如今的企业客户，必须从实用、靠谱上下功夫。因此，“更成熟、更可靠”，是腾讯讲大模型时最强调的特点。

当前，业界大模型在场景中的应用依然有限，这主要因为大模型还在不少休闲场景里打转——比如AI生成文字、AI画画等等。但要深入到更多产业的生产环节，大模型“胡说八道”这一点，会成为桎梏。

对此，腾讯在算法层面进行了一系列自研创新，提高了模型可靠性和成熟度。比如，腾讯优化了预训练算法及策略，让混元大模型的幻觉相比主流开源大模型降低30%至50%。腾讯自研的“思维链”，则让大模型能够像人一样，结合实际的应用场景进行推理和决策。

以往大模型因为单次处理的信息少，导致模型会出现“忘记上面讨论的是什么问题”的情况，但现在，由于腾讯混元编码位置的优化，如今混元也能够处理更长的超长文。

来源：腾讯

而现在站在风口浪尖上的AI安全问题，腾讯也在通过算法解决。通过强化学习，如今混元已能学会识别很多“陷阱”——比如“如何才能超速驾驶”这类危险问题，混元会直接拒绝。

而在底层支撑模型安全、可靠运行的，是腾讯在这几年间耕耘的一套技术栈。今年以来，腾讯还发布了HCC高性能计算集群、向量数据库Tencent Cloud VectorDB等大模型基础设施，以及Ti平台这样的“AI工具箱”，面向开发者提供服务。

“我们从最底层的高速网络、服务器、网卡，到平台、模型、算法，都是自研的，这让后续迭代过程加快了。”蒋杰表示。

大厂做大模型，如今自研技术栈已经是标配。从百度、阿里、华为到腾讯，各家都会从最底层的芯片做起，覆盖框架、模型甚至是开发运维工具等。原因在于，大模型还是个相当新的东西，与之匹配的基础设施很稀缺。厂商们全部都要做，也是为以后在产业落地，让客户用起来做好准备。

场景为王

表面上看，腾讯混元和前段时间号称“不做诗”“不聊天”的华为盘古其实很像。而不同在于，华为的“不聊天”，其实是因为以前积累的政企、产业客户已经够华为深耕很久。

但腾讯是线上场景的王者，其主营业务与C端用户强相关——

但腾讯暂时没推类似文心一言、通义千问之类的的To C聊天机器人，其实是因为走了另一条验证路径。如今，腾讯内部已经有包括文档、会议、游戏、金融、搜一搜等50个业务接入内测——先从这些国民应用开始验证，已经足够。

接入混元后的腾讯会议，可自动生成会议摘要

“对于通用大模型来说，ChatBot只是一种验证方式而已，可能我们选择了另外一条。”蒋杰表示。

在做大模型这件事上，腾讯的逻辑和之前做To B的策略别无二致：先从自家的业务需求做起，在内部打磨好了，再对外发布。腾讯原本有的C端社交应用场景，未来会是大模型迭代的富矿。

来源：腾讯

目前

可以预见的是，未来要做大模型落地，产品依然会是腾讯最重要的抓手。当下“不着急”的腾讯，是国内大模型领域主题变迁的切面：无论是大众还是业内，都已摆脱“赶超ChatGPT”的心态，而是走到更关心应用落地，把大模型用起来的阶段。

Tags:

自然语言处理模型半年

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。