首页 > AI资讯 > 行业动态 > OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

新火种    2024-05-10

OpenAI正在秘密A/B测试下一代模型,实力超强被怀疑是GPT-4.5或GPT-5。

就在奥特曼当谜语人暗示之后,两款新模型悄悄上线大模型竞技场。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨Im-a-good-gpt2-chatbotIm-also-a-good-gpt2-chatbot

和GPT-4-Turbo(左)同场竞技,gpt2-chatbot(右)明显更胜一筹。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

此前一款名为gpt2-chatbot的超强模型仅仅上线一天,热情的网友就把服务器挤爆了,不得不下架,大家纷纷表示还没玩过。

这次重新上线后,模型在一次报错中直接给出了跳转OpenAI平台网站的链接。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

这下大家都嗨了,做实了是OpenAI在搞A/B测试?

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

还有人表示,这俩模型可能已经在推理和计划方面进行微调。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

现在在竞技场里随机匹配,就能遇到这俩新模型。

这不,网友们已经纷纷前去测试,一探它们的底细了。

代码能力突出

和第一次露面有所不同,如今想要用上gpt2,只能在Arena(battle)里碰运气,Direct Chat中找不到它们的影子。

有的人运气好,试了5次就成功让这俩模型battle了一局。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

结合几个示例来看,im-also-a-good-gpt2-chatbot生成的回答似乎总是更简洁一些。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

代码生成方面,它能一次生成一个可执行的游戏代码。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

效果如下:

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

如果回答的代码有误,可以进一步追问让它自己改正。

比如让它们写一个康威生命游戏的代码,在未告知使用Colab时,模型写出的代码有问题。

但继续追问并表示自己用的是Colab,im-also-a-good-gpt2-chatbot能够自己修改对代码,im-a-good-gpt2-chatbot不行。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

还有在解决物理题方面,有Reddit用户说im-also-a-good-gpt2-chatbot能解答出其他模型都答不对的物理题。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

不过我们实测了下,im-a-good-gpt2-chatbot似乎也能做对。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

还有人测试了一道推理题目,im-a-good-gpt2-chatbot可回答正确,im-also-a-good-gpt2-chatbot也能做到但需要两次提示。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨网友:白嫖大家反馈吗?

尽管OpenAI还是没有正式认领gpt2-chatbot,但网友几乎已经默认它们是一家了。

因此有人觉得,gpt2-chatbot在竞技场上搞A/B测试,这不是让大家免费给他当志愿者。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

有人觉得他们这么做,就是为了炒热度。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

但现在gpt2-chatbot的底层模型到底是啥还不确定。

有人直接问了gpt2-chatbot,但可能存在幻觉,它表示自己基于GPT-4架构,是GPT-4.5的变体。

但之前奥特曼在公开演讲中已经否定了。测试网友表示自己没有给出过GPT-4.5相关的提示内容。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

也有人怀疑,这两个模型大小不一样,叫这个名字是不是因为采用了GPT-2的架构来训练模型。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

值得一提的是,最近有大V爆料称本周OpenAI将公布进军搜索引擎的消息。

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

OpenAI已经更新了网站主页,第一个轮番页是一个搜索框上面写着“向ChatGPT问任何事情”

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

爆料说这次发布的时间可能在北京时间周五的凌晨2点。

总之,最近OpenAI的动向,都有点神秘。


Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。