首页 > AI资讯 > 行业动态 > OpenAI重夺竞技场第一,但这波靠的是4o

OpenAI重夺竞技场第一,但这波靠的是4o

新火种    2024-11-22

OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:

Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。

OpenAI重夺竞技场第一,但这波靠的是4o

对,还不是o1满血版,而是新版4o。

OpenAI重夺竞技场第一,但这波靠的是4o

具体来说,此番GPT-4o更新的是“创意写作能力”,官方说法是:

OpenAI重夺竞技场第一,但这波靠的是4o

o1核心贡献者Karina Nguyen对此做了进一步解释:

OpenAI重夺竞技场第一,但这波靠的是4o

而在大模型竞技场的创意写作分榜上,可以看到新版4o(ChatGPT-4o-1120)确实有明显的提升,分数从上个版本的1365提升到了1402。

OpenAI重夺竞技场第一,但这波靠的是4o

至于实际效果,我们简单测试了一下,看看你能给打个几分:

OpenAI重夺竞技场第一,但这波靠的是4o重返第一,但4o

除了在总榜上为OpenAI重夺第一,新版4o在体现具体能力的各个分榜上亦有提升。

在创意写作方面,从第2位升至第1位;

在代码能力方面,从第2位升至第1位;

在数学能力方面,从第4位升至第3位(第1还是o1-preview);

在困难任务方面,从第2位升至第1位。

并且在风格控制(Style Control)之后,新版4o依然位居首位。

OpenAI重夺竞技场第一,但这波靠的是4o

风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示,新版4o对上此前登顶的Gemini-Exp-1114,胜率为59%;对上Claude 3.5 Sonnet,胜率为69%;对上5月版本的4o,更是在72%的情况下都能取胜。

OpenAI重夺竞技场第一,但这波靠的是4o

嗯,看上去很强很不错,但还是那句话……是4o。

结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线,还计划开源,不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来:

OpenAI重夺竞技场第一,但这波靠的是4oOpenAI重夺竞技场第一,但这波靠的是4o

简而言之就是:o1满血版今年上线传得满城风雨,现在2024年都只剩下40几天了,OpenAI你暗搓搓更新个4o是闹哪样!

OpenAI重夺竞技场第一,但这波靠的是4o

还有人试图总结OpenAI的更新模式:

OpenAI重夺竞技场第一,但这波靠的是4o

嗯,才不管你期待的是什么呢╭(╯^╰)╮

另外,还有网友拿新4o的生成结果去做了测试,结果系统还是当场判断出了100%AI写的:

OpenAI重夺竞技场第一,但这波靠的是4o

△图源:@TuhinChakr

不过,一片吐槽声中,也有人认真研究了一下OpenAI的更新。

比如,在系统提示词方面,大佬发现,OpenAI确实偷偷给ChatGPT加了点料的:

简单来说,就是新增了一道护栏,确保ChatGPT不在敏感话题上胡说八道。

那么,如果你想试试新版4o具体能写出什么“创意”内容,现在可以到竞技场免费试试:

有什么好玩的结果,欢迎回评论区分享给大伙儿~

参考链接:

— 完 —

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。