新华社研究院发布国产大模型报告：讯飞星火第一，百度文心第二

首页 > AI资讯 > 行业动态 > 新华社研究院发布国产大模型报告：讯飞星火第一，百度文心第二

新华社研究院发布国产大模型报告：讯飞星火第一，百度文心第二

新火种 2023-09-07

自ChatGPT引发人工智能投资热潮以来，国产大模型如雨后春笋般爆发，截至7月初，国内10亿级参数规模以上的人工智能大模型已超80个。在这种新的趋势下，国产大模型该如何选择？哪家大模型最强大？

8月12日，新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》（以下简称《报告》），对百度文心一言、阿里通义千问等时下最火热的国产通用大模型应用进行了测评。

本次测评共设计500道随机题目，对标接受过高等教育的人类水平、更强调对产业和生活的实际价值，并严格按基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行权重设计，以保证整个测评过程的严谨性。

最终结果稍稍令人意外，讯飞星火以总分1013分位列本次测评榜首，在四大评测维度中的智商指数和工具提效指数两个维度获得第一；百度文心一言和商汤科技商量分别位列第二和第三。

《报告》称，讯飞星火具有7大核心能力，即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。

在基础能力部分，人类与AI之间的差距并不显著。百度文心一言表现在模型中最为抢眼；商汤商量、智谱AI hatGLM、360智脑表现优良，讯飞星火、阿里通义千问、澜舟科技Mchat、昆仑万维天工表现尚佳。

在智商评估方面，人类仍然具有明显优势，分数也达到最高。在所有测评的模型中，讯飞星火、智谱A-ChatGLM并列第一；百度文心一言、昆仑万维天工表现优良。

在情商方面，AI与人类之间的差距最为明显。《报告》称，目前尚未观察到AI具备情绪感知能力的明显迹象。尽管如此，商汤商量还是展现了超越同行的高情商，以346分位列第一，百度文心一言和澜舟科技·Mchat分别位列第二和第三。

最后，在工作效率提升方面，《报告》认为， AI对人类提供了有力的支持，AI的处理速度远远超过人类。然而，尽管AI具有高速度和高效率的优势，但在某些复杂和具有创新性的任务中，人类的智慧和想象力仍然具有无法替代的作用。测评结果显示，讯飞星火以350分排名第一并遥遥领先，百度文心一言和商汤商量分别位列第二和第三。

《报告》认为，与2023年6月相比，当前中国大模型产品进步显著。但与接受过高等教育的人类相比，大模型在智商、情商等方面还存在一定程度差距。虽然在不同领域中，AI和人类表现出不同的优劣势，但在整体上，AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响，大模型正在加速走进生活、走进产业。

Tags:

新华社研究院

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

新华社研究院发布国产大模型报告：讯飞星火第一，百度文心第二

独家|字节或成立大模型研究院，疯狂氪金AI人才

字节跳动成立大模型研究院？知情人士称公司未决定建立独立机构

Tele-FLM发布|中国电信人工智能研究院携手智源研究院推动开源社区发展

昆仑万维2050全球研究院联合NUS、NTU发布Vitron，奠定通用视觉多模态大模型终极形态

莫干山研究院朱嘉明：预计未来5

热门文章

Manus神话破碎？邀请码炒至数万元，转头被MetaGPT成员3小时复刻

全国首例保护AI模型结构判决！抖音诉B612侵害著作权获赔160万

清华学霸、OpenAI姚顺雨：AI下半场开战，评估将比训练重要

1元起京东举办全国首场人形机器人拍卖：含马拉松第2名小孩哥

腾讯开启史上最大就业计划，三年新增28000校招岗位，今年六成面向技术人才

华为：迈向下一代光网络AION，共创AI时代新增长

全球首创！阿里巴巴AI攻克“癌症之王”早筛难题获FDA最高级别认证

豆包灰测接入抖音，腾讯元宝就霸王条款道歉|蓝媒GPT

AI爆火MWC！AIOS席卷手机PC，国王点赞荣耀华为，中国企业霸场