腾讯大模型开源的“冷思考”
继腾讯混元文生图模型开源之后,近日,腾讯混元最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”也正式开源,支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费且可以商用。
据介绍,腾讯混元Large是目前开源领域参数规模和效果表现都较好的MoE模型(Mixture of Experts,即混合专家模型,是目前国内外主流的大模型结构),而腾讯混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型。两个模型均属腾讯自研,在架构、算法、数据等方面有独特创新,填补了行业空白。目前,两个模型均已经在腾讯业务场景中落地应用,经过实践的检验,是面向实用场景的应用级大模型
AI大模型浪潮席卷而来之时,腾讯不是冲在最前面的那一波;当市场上关于开源与闭源争论不断时,腾讯也没有着急站队。如今在开源文生图视频模型之后,腾讯又陆续开源了一些模型,在大模型的开闭源上,腾讯混元大模型究竟是怎么考虑的?
“腾讯做大模型一年多时间并没有着急去开源,我们认为很重要的一个原因是开源的结果,其实是自然而然的发展,而且腾讯是在闭源做得比较好之后才做的开源。”腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉在接受《中国经营报》等媒体记者采访时说道。
2023年9月,在2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。2024年5月,腾讯混元文生图大模型全面升级并对外开源。
大模型市场上关于开源还是闭源一直都有争论。百川智能在2023年6月15日发布了国内首款开源可商用的70亿参数量大语言模型Baichuan-7B,上海人工智能实验室在2023年7月开源了书生·浦语大模型70亿参数的轻量级版本InternLM-7B,Meta在2023年7月发布了LLaMa 2模型,并在2024年4月发布了Llama-3。
还有一些厂商则是闭源大模型的拥护者。OpenAI的GPT系列、谷歌的Bard、百度的文心大模型都是市场上著名的闭源大模型。
该如何定位大模型是开源还是闭源?康战辉指出,对于头部大型企业来说,业务多且复杂,超级复杂的业务可能就是需要闭源大模型才能解决,虽然成本摊下来更大,但提升的能力更强。开源大模型面对的则是不同的开发者,尤其有大量的中小企业,以及个人开发者,他们对成本的考量更重一些。
腾讯大模型则是在闭源做好之后再逐步对外进行开源。在开源选择上,腾讯混元大模型选择了先开大的后开小的。康战辉解释这一选择背后的原因:“首先,开源理念上先开大的模型,是因为我们开始做的东西都是大的,这是历史原因。另外,我们优先考虑把腾讯内部业务上使用的模型对外开源,后续还会开源一些小的模型,也是延续这个模式。”
以此次开源的腾讯混元Large为例,该模型已经在腾讯内部的AI搜索、AI阅读等业务做过试用,腾讯金融领域、协同办公三件套等业务里面都涉及到腾讯混元Large,有些已经上线使用。
对于腾讯混元大模型开源时间晚于市场上很多的开源大模型厂商,腾讯方面则认为“好饭不怕晚”。
“去年大模型如火如荼,开源大模型也是百花齐放。今天大家来看,大家还是各归各位。”康战辉说道,“底层大模型就是AI时代的一个操作系统、是一个底层基础设施、是一个长期的事情,另外,底层模型不是C端产品,不存在入口、流量问题的困扰,是可以沉下心来长期深耕的事情,所以我们认为多模态大模型真的一点不晚。”
据介绍,现在腾讯混元大模型开源的参数权重,并不涉及到数据和代码,但是接下来会把训练的代码开源出来,同时会把评估期开源。
康战辉表示:“大模型开源数据本身意义不大。”因为大模型不是软件,而是靠大量数据驱动。举一个例子,学界有很多开源的模型、开源的数据,但是开源数据很难被大家共建,因为数据规模太大了,不是写一行代码就能共建的事情。现在的大模型普遍训练的数据都是几万亿tokens,对于业界来讲是很难把数据维护起来去做进一步的挖掘。
(文章来源:中国经营网)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。