首页 > AI资讯 > 最新资讯 > 零一万物Yi-34B-Chat微调模型上线,登陆多个权威榜单

零一万物Yi-34B-Chat微调模型上线,登陆多个权威榜单

新火种    2023-12-20

在盲测对比中也取得了好成绩。

最近,业内众多大模型基准又迎来了一轮 “实力值” 更新。继 11 月初零一万物发布 Yi-34B 基座模型后,Yi-34B-Chat 微调模型在 11 月 24 日开源上线 ,短时间登陆了全球多个英文、中文大模型权威榜单,再度获得了全球开发者的关注。其中,在斯坦福大学提出的大语言模型评测基准 AlpacaEval 上,Yi-34B-Chat 以 94.08% 的胜率,超越 LLaMA2 Chat 70B、Claude 2、ChatGPT,在 Alpaca 经认证的模型类别中,成为业内仅次于 GPT-4 英语能力的大语言模型,并且是经由 Alpaca 官方认证为数不多的开源模型。

图片

AlpacaEval Leaderboard 排行榜(发布于 2023 年 12 月 7 日)与此同时,在加州大学伯克利分校主导的 LMSYS ORG 排行榜中,Yi-34B-Chat 也以 1102 的 Elo 评分晋升最新开源 SOTA 开源模型之列,性能表现追平 GPT-3.5。在各类大模型评测中,伯克利 LMSYS ORG 较为特殊,其采用了较为接近用户体感的 “聊天机器人竞技场” 测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11 月份经 2.5 万真实用户投票总数计算了 20 个大模型的总得分。Elo 评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。在开源模型中,Yi-34B-Chat 英语能力达到了较高水准,LMSYS ORG 在 12 月 8 日官宣 11 月份总排行时评价:“Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5。”

图片LMSYS ORG 榜单(发布于 2023 年 12 月 8 日)

中文能力方面,Yi-34B-Chat 微调模型同样有了进步。SuperCLUE 是一项针对中文能力的排行榜,从基础能力、专业能力和中文特性能力三个不同的维度,评估模型的能力。根据 11 月底发布的《SuperCLUE 中文大模型基准评测报告 2023》,11 月下旬首度发布的 Yi-34B Chat,晋升到了和诸多国产优秀大模型齐平的 “卓越领导者” 象限,在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得 31.82% 的胜率,仅次于 GPT4-Turbo。

图片中文 SuperCLUE 排行榜(发布于 2023 年 11 月 28 日)

面向开发者,Yi-34B-Chat 微调模型提供了 4bit/8bit 量化版模型,其中 Yi-34B-Chat 4bit 量化版模型可以直接在 RTX 3090 等消费级显卡上使用。Yi-34B-Chat 在不同对话场景中表现如何?来看几个更直观的问题演示:【知识与生成】:Transformer 模型结构能不能走向 AGI ?

图片

【创意文案】:给我生成一个小红书文案,给大家安利一只豆沙色的口红。

图片

【中文理解】:小王给领导送了一份礼物后。领导说:“小王,你这是什么意思?” 小王:“一点心意,意思意思。” 领导:“你这就不够意思了。” 小王:“小意思,小意思。” 领导:“小王,你这人真有意思。” 小王:“也没什么别的意思。” 领导:“那我多不好意思。” 小王:“是我不好意思。” 这个意思到底是什么意思?

图片

据零一万物介绍,目前 Yi-34B-Chat 模型实现的能力,除了要归功于 Yi 系列强基座的贡献以外,还得益于其人工智能对齐(AI Alignment)等技术。研究团队采用了一系列创新对齐策略,通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛 COT、对话交互等。

通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。在数据的量和质方面,一方面,研究团队在强基座模型上,实现仅需要少量数据(几条到几百条),就能激发模型特定单项能力;另一方面,数据质量比数量重要,少量高质量数据比大量低质量数据更好。通过关注超出模型能力的 “低质量” 数据,减少了模型 “幻觉”。在指令多样性与难度方面,研究团队通过在各能力项下构建任务体系,实现了训练数据中的指令均衡分布,大幅提升了模型泛化性。通过复合指令构造和指令难度进化,不仅提升了模型效果,也显著降低了对数据量的需求。

在风格一致性方面,研究团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度,因此统一了回复风格,比如重点设计了 CoT 的回复风格,实现在轻量 SFT 情况下,避免了风格不一致加剧模型的 “记忆” 现象。在多能力融合阶段,研究团队采用网格搜索的方法来决定数据配比和超参数的设置,通过基准测试和自建评测集的结果来指导搜索过程,成功实现模型的多能力融合。为促进大语言模型的生态发展,零一万物宣布,邀请全球开发者共同测试使用 Yi-34B-Chat 模型能力,一起搭建 Yi 开源模型的应用生态体系。

Yi 模型开源满月,创新生态逐渐丰富Yi 模型开源首月,在 Hugging Face 社区下载量已达 16.8 万,魔搭社区下载量 1.2 万,此外在 GitHub 获得了超过 4900 个 Stars。多家知名公司和机构推出了基于 Yi 模型基座的微调模型,如猎豹旗下的猎户星空公司推出的 OrionStar-Yi-34B-Chat 模型,南方科技大学和粤港澳大湾区数字经济研究院(简称 IDEA 研究院)认知计算与自然语言研究中心(简称 CCNL 中心)联合发布的 SUS-Chat-34B 等。而 AMD 和 Hugging Face 合作的 GPU 加速大模型的实验中,也选择了 Yi-6B 作为范例项目。

知名技术写作者苏洋表示,在他观察的近期 Hugging Face 榜单中,前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个,“从这点看 Yi 对于开源生态的帮助还是非常巨大的。”Eric Hartford:成为 Yi-34B 的忠实拥趸Eric Hartford,Hugging Face 社区开发者Yi-34B 开源发布后,开发者 Eric Hartford 发现了模型存在的一个小问题。他在邮件中写道,“感谢你们提供了一个优秀的模型。Yi 模型使用了与 LLaMA 模型完全相同的架构,只是将两个张量改了名字。由于围绕 LLaMA 架构有很多投资和工具,保持张量名称的一致性是有价值的。”

Eric 建议,在 Yi 被广泛传播前,及时恢复张量名称。零一万物意识到命名问题的疏忽对开发者造成的不便,跟 Eric 和其他开发者提出说明,表达诚挚的歉意,并很快便在各开源平台重新提交模型及代码,完成了开源社区的版本更新。然而 Eric 没有料想到,他的建议在国内引发了舆论关于 Yi 模型 “抄袭” LLaMA 的质疑。在大模型领域,技术架构、微调和数据同等重要。在沿用了开源社区普遍使用的 LLaMA 架构之上,零一万物团队用高质量的数据集、自研训练科学和 AI Infra 打造了 Yi-34B 在内的系列模型。零一万物表示,为了执行对比实验的需要,对部分推理参数进行了重新命名。原始出发点是为了充分测试模型,而非刻意隐瞒来源。面对新出现的舆论,Eric 自发为 Yi 进行了辩护。

图片

他在 X(twitter)上写道,“他们没有在任何事情上撒谎。所有的模型都是在相互借鉴架构。架构是学术研究的产物,已经发表在论文中,任何人都可以自由使用,这丝毫不减损 Yi 团队的成就。他们从零开始使用自己创建的数据集训练 Yi,对开源领域的贡献是值得赞扬的。”他又表示,“使用 Llama 架构没有任何问题。训练才是关键。Yi 给了我们目前可获得的最佳模型,没有任何可抱怨的。”苏洋:Yi-34B 在很多细分场景可替换 GPT-3.5苏洋,数字化创业者,开发者,技术写作者

图片

苏洋表示,他已尝试使用个人的机器学习主机,在纯 CPU 环境、CPU & GPU 混合环境下对 Yi-34B 模型进行了测试,结果比想象中要好。其中社区 finetune 后的版本,在对新闻、研究报告的摘要总结方面,对非结构化的信息中的实体识别和抽取上表现非常不错。另外早期在官方还未推出 Chat 版本时,来自社区的 Chat 版本在对话的过程中,通史类的问答表现也非常不错。当然,可能是由于零一在训练过程中,出于安全考虑,过滤太多语料的缘故,一些本土化的内容仍然不够深入。

目前,在 Hugging Face 的榜单上,前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个,从这点看 Yi 对于开源生态的帮助还是非常巨大的。与 68 和 70B 模型相比,34B 普通用户努努力还是能自己相对低成本跑起来的,同时成绩相较差异不多。换言之,企业想部署使用,所需要的成本也可以得到非常大的节约。目前国产大模型在开源榜单上已经是第一梯队,但如果把竞争范围追加到闭源模型、尤其是海外的模型,仍有很大的距离要去追赶。目前的普遍体验是开源模型最多只有 GPT-3.5 + 的水平。苏洋认为,相信国产大模型是能够很快追赶至第一梯队的。只要底子好,坚持使用开源的正确路线和方法,做好本地化适配和调优,就有希望。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。