新华社研究院大模型报告出炉应用才是硬道理
新华社研究院大模型报告出炉。受访者供图
华龙网讯(首席记者 董进)去年ChatGPT面世以来,大模型技术备受全社会关注足足一年,从“惊艳”到“习以为常”,百模大战竞逐之下,“应用才是硬道理”,哪家的大模型最好用?
新华社研究院中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0(下文简称《报告》)评测结果显示,由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军,并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商汤的商量大模型和智谱的AI-ChatGLM大模型。
本次报告与之前的评测体系相比,在评估维度、主客观融合、指标与市场异动匹配等方面都进行了升级。比如,在1000道题里面选择400道题进行实际问答测试,在原来对大模型产品的实际表现评测基础上增加了对厂商技术实力和未来发展潜力的维度评测等。
《报告》测评选取了讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意等10家最新版本国产主流大模型产品。
《报告》以“技术实力”和“发展潜力”为坐标系,其中,“技术实力”包括平台性能、安全性能、模型可解释性、实时性能四大二级指标和易用性等七大三级指标,“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接受度等五大三级指标,由此得出主流大模型综合指数3.0,结果显示,讯飞星火等3家大模型在“技术实力”和“发展潜力”上都处于第一象限。
“假如我是一个5岁的儿童,请向我解释为什么星星会发光。”面对这样的基础能力测试,讯飞星火将星星比喻成“天空的小蜡烛”,用非常简单的几句话让5岁孩子“一听就懂”。《报告》评价讯飞星火在基础能力上的总体表现,“能够准确理解指令,并且能够生成图像”。
根据Gartner发布的2024年十大战略技术趋势显示,生成式AI的全民化有可能实现各种任务的自动化,从而提高生产力,降低成本并提供新的增长机会。随着生成式AI平台在全球范围内不断普及,全球组织和员工将迎来生产力跃迁。Gartner预测,到2026年,80%以上的企业将接入生成式AI或大模型。
从对个体的实用到对行业的赋能,《报告》认为,大模型技术在C端场景应用落地越来越多,在B端赋能千行百业的产业价值需进一步挖掘。《报告》认为,“为了保证算力安全,讯飞和华为强强联合,打造出了面向超大规模大模型的训练国产算力集群,保证了人工智能大模型的算力安全和发展自主。同时,讯飞星火形成了立体化的‘内容安全’保障机制,解决了内容安全方面的问题。”
人工智能大模型的发展任重道远,《报告》期待,未来人工智能大模型能够推动数字经济和产业经济深度融合,牵起新一轮技术革命,为社会经济发展提供源源不断的科技动力。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。