首个AI高考全卷评测结果发布：最高分303数学全不及格

首页 > 快讯 > 首个AI高考全卷评测结果发布：最高分303数学全不及格

首个AI高考全卷评测结果发布：最高分303数学全不及格

新火种 2024-06-19

19日讯，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生·浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分。

Tags:

最高分数学

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

首个AI高考全卷评测结果发布：最高分303数学全不及格

通义千问开源数学模型Qwen2-Math，数学能力超越GPT-4o

阿里发布Qwen2-Math：数学推理全球第一，超越GPT-4o和Claude-3.5

首个AI高考全卷评测结果发布：最高分303数学全不及格

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

LoRA数学编程任务不敌全量微调|哥大&Databricks新研究

热门文章

蒋昌建谈人与机器人未来：不可避免投射感情，定会融合发展

保龄宝：公司暂未接入deepseek大模型

东信营销科技：获得AI大模型“双备案”认证

上海一小学的世界读书日：纸质阅读的浪漫，AI无法取代

2连板海航科技：目前公司不涉及人工智能、云计算和云存储业务

海航科技：公司目前不涉及“人工智能”“云计算”“云存储”业务

产学研深度融合力推大模型广泛落地

靳东：喜爱我的观众被AI骗得很惨，建议AI换脸立法

泼水节要来了，“澎湃”用AI打开西双版纳狂欢盛宴