首页 > AI资讯 > 最新资讯 > SuperCLUE发布中文大模型基准测评2023年度报告

SuperCLUE发布中文大模型基准测评2023年度报告

北京商报    2024-01-03

  北京商报讯(记者杨月涵)

12月28日,国内中文模型评测机构SuperCLUE发布中文大模型基准测评2023年度报告。根据报告,过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。

  据介绍,本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的26个大模型在12月份的版本。

  测评结果显示,国内外差距依然明显。GPT4-Turbo总分90.63分遥遥领先,高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分,距离GPT4-Turbo有11.61分,距离GPT4(网页)有4.9分的差距。

  但过去1年国内大模型已经有了长足的进步。综合能力超过GPT3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qwen-72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。

  另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Chat均优于Llama2-13B-Chat。

(文章来源:北京商报)

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。