实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 行业动态 > 实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

新火种 2024-09-14

OpenAI传说中的“草莓”终于正式上线！

不仅可以胜任更复杂的推理任务，在数学、代码和其他科学领域也能解决更难的问题。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

OpenAI这次“无预警发布”震撼了科技圈，o1更是被CEO奥特曼称它为了一种新范式的开始。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

发布之后，各路大神和网友都纷纷用各种问题测试OpenAI o1的表现：

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

还有人进行了花式考验，结果被o1强大的推理能力秀到了。

Q：你的回复中有几个字？ A1：这句话有七个字 A2：一共五个字

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

量子位也进行了一番实测，下面就一起来了解。

推理能力大进化，但还是难敌弱智吧

该说不说，o1虽然在推理能力上取得了很大进步，但面对充满心机的弱智吧问题，还是掉进了人类挖的陷阱。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

当然了，对于正经问题，o1的表现还是很强的，首先看看逻辑推理能力。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

思考这道题时，preview和mini分别用时21秒和14秒，不过从文本上看mini思考得反而更多。

其中还出现了一些西里尔字母乱入，不过对整体影响不大。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

最终，二者也都给出了正确的答案——丙。

值得注意的是，mini（右）的解答当中还出现了修正的过程。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

接下来看下o1在大学数理化题目上的表现。

首先是这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

还是分别看下preview和mini的思考，可以看到mini的思考过程大概是preview的简略版，当然速度也快了不少。

不过preview给的思考过程当中再次出现乱入，这次是泰语。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

实际解答过程也是preview比mini更加详细，不过不知道为什么preview用了英文回答。

最后的计算结果化简方式也有所不同，但数值上是相等的，而且也做对了。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

对比4o这边，先偷懒后作弊（调用了代码解释器），结果最后答案还是错的。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

第二道数学题关于概率。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

这道题preview依然是用英语进行了作答，步骤比mini更加详细，当然都是对的。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

而4o的答案前面的过程倒是基本都对，但是最后一步的求解出现了问题，只给出了1这一个解，并且不是本题答案。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

物理方面，这里选择了一道大学物理中的光学题：

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

preview（左）和mini都给出了正确解答，内容也基本一致。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

化学的题目是一道物化题，主要涉及电化学等内容。

这里把AgCl/Ag的标准电极电势作为已知条件一同输入给模型。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

Preview（左）和mini大致的解题思路还是差不多，在计算步骤上有指对运算先后的差别，当然最后的结果还是对的。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

最后一项测试就不再做考试题了，而是看看模型编写代码的能力如何。

这里选择的题目难度非常高，真人的通过率只有14%。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

以下是preview（左）和mini的解题思路：

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

从代码上看，两者核心逻辑相似，但在具体操作上略有区别。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

两套代码均通过了测试，内存消耗也比较接近，而mini给出的代码运行时间更短（38毫秒）。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

o1的编程能力除了用来解题，也可以快速构建出实用的应用程序。

知名AI配音工具ElevenLabs设计部门负责人Ammaar Reshi，就利用o1搭配Cursor Composer，用了不到10分钟的时间制作了一款iOS天气应用。

小数比较还是不会？

测试发现，对于大模型难以答对的名场面——小数比大小，preview（左）和mini都答不对。

甚至preview在思考过程中明明已经提到过9.8比9.11大。

但同时preview在思考过程中表示，9.8和9.11有可能指的是日期，所以做不对也许另一原因。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

针对这个问题，大神谢赛宁也晒出了他的测试结果，发现o1在思考过程中将9.8当成了重力常数，而9.11是一个“意义不明的数字”。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

所以o1可能不是不会，而是把这个问题想复杂了。

为了进一步探究，我们把问题改得具体些，强调一下9.8和9.11都是数字，这下没有了歧义之后就能一次做对了。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

可以看出，提示词的影响还是不小的。

由于o1在内部采用了一些类思维链过程，因此prompt的设计和普通版本也有所区别，OpenAI官方发布了一则提示：

提示词应简单且直接

避免在提示词中使用思维链

使用分隔符让promot更清晰

控制RAG内容的长度

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

回到我们的测试，面对其他几个大模型败北名场面，o1也有不小的进步。

比如在数字母的任务上就有所进化，即使是一串乱打的字母也能数对。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

还有面对经典的“反转诅咒”（即知道A是B却不知道B是A）问题，也终于一次性答对了Mary Lee Pfeiffer（汤姆·克鲁斯的母亲）的儿子是谁。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

One More Thing

关于这次发布的o1，除了各个方面的成绩之外，还有一些其他的发现。

比如前特斯拉自动驾驶负责人、两度进入OpenAI又两度离职的大神Andrej Karpathy发现，o1-mini在被要求证明黎曼猜想的时候出现了拒绝回答的情况，表示大模型“犯懒”依然是一个大问题。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

还有网友说觉得mini的表现比preview好，想问下有没有人知道原因或者有啥看法。

这条消息也把奥特曼吸引了过来，回复了一句“Yes I have one”。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

根据OpenAI内部员工Kevin Lu发布的一则推文来看，mini的性价比确实比preview更高。

根据这张图显示，preview版本论性能比不上尚未公布的满血o1，论经济性又比不上mini。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

顺便提一句，preview版本存在消息数量限制，并且数量是按周进行重置的，几轮测试下来已经快要用尽了。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

Tags:

数理化难解

相关推荐

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

2024-09-14

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

2024-09-14

OPPO掉队：AI手机业务难解燃眉之急

2024-08-22

鸿海刘扬伟：今年AI服务器业务相当好但AI芯片荒下半年难解

2024-02-05

网易有道大模型有新突破，AI家庭教师正攻克数理化学科

2024-01-02

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

腾讯混元训练营开营，共创50多个大模型应用场景

性能不等于销量NVIDIA最新AI芯片市场遇冷！客户偏爱成熟老产品

2025-04-01 18:23

朱啸虎看不上的赛道，腾讯投了150亿独角兽

2025-04-02 09:50

iOS18.4上线中文版苹果AI：但请不要期待Apple智能

2025-04-03 18:21

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

2025-04-03 09:33

小米真AI智能眼镜下月发布：双芯架构、自带镜头

2025-03-31 18:25

DeepSeekV3模型重磅升级！腾讯/微美全息加速AI大模型“上车”多场景落地

2025-04-02 13:47

微软被曝关闭上海人工智能实验室：Logo被移除办公设备清空

2025-04-02 18:21

在线教育退潮，硬件增长哑火！网易有道押注AI！

2025-04-02 09:51

售价将超万元！Meta计划推出高端AI眼镜：首次配售腕带控制器

2025-04-03 18:21