零一万物回应大模型架构争议：结构设计基于GPT，借鉴行业公开成果

首页 > AI资讯 > 最新资讯 > 零一万物回应大模型架构争议：结构设计基于GPT，借鉴行业公开成果

零一万物回应大模型架构争议：结构设计基于GPT，借鉴行业公开成果

新火种 2023-11-16

界面新闻记者 | 李京亚

界面新闻编辑 |

一周前刚完成大模型处女秀的零一万物，今日被拱上风口浪尖。

11月14日上午，在零一万物预训练大模型Yi-34B的Hugging Face开源主页上，一位名为ehartford的国外开发者质疑称该模型使用了Meta的当家开源大模型LLaMA的架构，只对两个张量（Tensor）名称进行了修改，分别为 input_layernorm 和 post_attention_layernorm。所谓张量，是深度学习概念中的多维数组，其目的是能够创造更高维度的矩阵、向量。

简而言之，这位国外开发者认为，李开复的Yi-34B其实是对Meta开源大模型LlaMa 的重构，只是改了几个名字。

针对此番开发者指控，零一万物方面对界面新闻作出了回应。零一万物表示，GPT是一个业内公认的成熟架构，Llama在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构，借鉴了行业顶尖水平的公开成果，由于大模型技术发展还在非常初期，与行业主流保持一致的结构，更有利于整体的适配与未来的迭代。同时基于零一万物团队对模型和训练的理解做了大量工作，也在持续探索模型结构层面本质上的突破。

“模型结构仅是模型训练其中一部分。Yi开源模型在其他方面的精力，比如数据工程、训练方法、baby sitting（训练过程监测）的技巧、hyperparameter设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业顶尖的AI infra能力等，投入了大量研发和打底工作，这些工作往往比起基本结构能起到更大的作用跟价值，这些也是零一万物在大模型预训练阶段的核心技术护城河。”零一万物表示。

四个月前，李开复进军大模型创业领域，他于11月6日正式披露了其AI创业公司零一万物成立7个月以来的最新进展。Yi系列两款大模型问世，包含34B和6B两个版本，目前都已开放免费商用申请。据界面新闻的了解，目前零一万物估值已达到独角兽级别。

本次争议性的Yi-34B是一个双语基础大模型，参数量达340亿的Yi-34B，可支持200K超长上下文窗口，可处理约40万汉字超长文本输入，是目前全球最长的上下文窗口，刷新了杨植麟的moon shoot.ai、王小川的Baichuan2-192K的大模型记录。

据悉，34B的大模型是李开复心目中基础模型的黄金尺寸，其刚好达到了涌现的门槛，但又没有过大，既满足了精度的要求，又对训练推理成本友好。

零一万物方面称，在大量训练实验过程中，由于实验执行的需要对代码做了更名，其尊重开源社区的反馈，将代码进行更新，也更好的融入Transformer生态。

普遍而言，开源并不代表没有版权，任何第三方使用都应该遵循其开源许可协议，而在法律层面上，大模型所有者可以通过专利、商标、版权等方式保护自己的大模型知识产权。

7月中下旬，科技巨头Meta开源了Llama 2。Llama2官网挂出的相关使用许可和限制声明显示，“该模型可以用于商业用途，除非你的产品的月活跃用户数超过7亿。需要填写一个表格才能获得访问权限，这个表格也会让你从HuggingFace的网站上下载模型。”不过，李开复Yi-34B模型的开源许可证上并没有提及LlaMa的名字。

Tags:

大模型结构设计架构

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

零一万物回应大模型架构争议：结构设计基于GPT，借鉴行业公开成果

华为云发布AI原生云基础设施架构

报道：OpenAI考虑调整公司架构，以提高对投资者的吸引力

大模型公司纷纷被收编！创始人们逐渐变成了“最讨厌的自己”？

大模型厂商“输血”不断，百川智能完成50亿元A轮融资！

联发科拥抱PC市场：为微软AI笔记本设计Arm架构芯片

热门文章

三六零开源升级版自研大模型360Zhinao2-7B：数学推理能力提升，医疗教育领域更实用

特斯拉Optimus展示新一代灵巧手，机器人产业ETF（159551）涨超3%

“人工智能+”，河南怎么“+”？

马斯克“开怼”SEC：六年骚扰还不够？律师公开质问幕后黑手

《金融大模型应用评测指南》发布，系全国首个以金融业务能力为核心的团体标准

AIGC“重塑”影视制作产业快手可灵AI用户超600万探索多元变现模式

北京：预计全市2024年人工智能产业规模突破3000亿元

《中国语言服务发展报告（2024）》（语言服务蓝皮书）发布

中央经济工作会议：以科技创新引领新质生产力发展建设现代化产业体系