ScalingLaw陷入困局，强化学习才是全村的希望？

首页 > AI资讯 > 最新资讯 > ScalingLaw陷入困局，强化学习才是全村的希望？

ScalingLaw陷入困局，强化学习才是全村的希望？

新火种 2024-11-18

这几天，发生了三件事：

听完了小珺和广密的 AI 行业 Q3 总结性的播客，讲到了预训练的 Scaling Law 瓶颈，以及 Self-Play RL 的重要性；

The Information 爆料，OpenAI即将在2周内发布新的草莓模型；

ChatGPT Pro 订阅计划开始灰度，售价200美金/月，上去用了一下却发现什么都没有。

这三件事关联在一起，拼凑出了一些一些即将成为共识的信息。

一、Scaling Law 的困局

整个大语言模型行业已经很久没有大的进步了。

这是所有人共同的感受。

在模型达到数千亿参数之后，训练成本和难度上升了很多，但似乎上万亿也并不能带来质变的提升。

Ilya 更是直言，大家已经不知道谈论 Scaling Law 的时候在 Scaling 什么了，而他对 Scaling 有了一些新的思路。

广密说道，硅谷逐渐形成的共识就是RL强化学习是接下来的突破点。

而预训练方面，80%的公司会放弃预训练。

二、Self-play RL 全村的希望

预训练玩不起，强化学习就成了全村的希望。

第一个超出预期的是 Claude Sonnet 3.5，代码能力超越了 GPT-4o，赋能 Cursor ，让 AI Coding 成了最热的话题。在代码能力方面的突破，使用的方法可能就是 RL。

第二个超出预期的是 DeepSeek，起步很晚，但是专注提升模型的推理、代码、数学能力，最近把 Coder 和 Chat 模型合并，代码水平接近 GPT-4o，在国内是断档第一的存在。

这两家公司的共性就是：单点突破。

如果说大语言模型的特点是通用智能的提升， RL 的特点就是单点突破。

而推理、代码、数学、Agent 就是目前价值最高的生产力领域，最适合做单点突破。

三、草莓模型，两周驾到

这部分信息昨天来自 The Information 的报道：

OpenAI is planning to release a text-only version of "Strawberry" within the next two weeks， according to two testers involved with the model.

据两名测试者透露，OpenAI 计划在未来两周内发布“Strawberry”的纯文本版本。

Early impressions indicate it’s somewhat underwhelming， primarily using chain-of-thought prompting. Responses take 10-20 seconds， making it slower than expected.

初步印象表明，它有些不及预期，主要是使用链式思维提示。响应时间为 10 到 20 秒，比预期的慢。

While testers found its performance slightly better than GPT-4o， Strawberry struggles with short， simple queries and has issues with memory integration.

虽然测试人员发现它的能力略优于 GPT-4o，但 Strawberry 在处理简短 Query 时表现不佳，并且在记忆方面存在问题。

The model lacks image integration， making it exclusively text-based for now.

该模型目前不支持图像集成，因此只能处理文本。

It is expected that Strawberry will have rate limits and might introduce a higher-priced tier for users seeking faster response times， diverging from the current pricing structure of ChatGPT.

预计 Strawberry 会设定速率限制，并可能为需要更快响应时间的用户推出更高价位的套餐，这与目前的 ChatGPT 定价结构有所不同。

四、ChatGPT Pro 上线，200美金/月

前几天有报道 OpenAI 考虑上一个 2000美金/月的订阅，简直太疯狂了。结果今天 OpenAI 终于公布了实际的订阅价格是：200美金/月……

不知道是不是因为有2000美元的价格作铺垫，感觉200美元的话，还行？

这个200美金的订阅买完，用了一下，发现除了可以不限量使用 4o，并没有什么新的东西。

所以猜测唯一的可能就是即将发布的草莓的价格。

卡兹克对草莓的一句话总结：基于新范式Self-play RL所做的，在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。更智能、更慢、更贵。

为什么这么贵？简单说这就是更高智能的代价。

从效用角度来说，草莓模型的特点是：代码、数学、推理能力、Agent 能力超强，这几项能力都是高价值的，但说代码能力，如果能比现在的 Claude 3.5 再明显好一截，200美金一个月也是能接受的。

从成本角度来说，草莓模型每次回答，会进行大量的内部“思考”，会长达10~20秒，其算力消耗成本应该在GPT4的10倍以上。

从原理上来说，草莓的方法 Self-play RL 本身需要巨大的推理成本进行训练，并且由于非实时性，这代模型的价值可能是合成数据，而非直接使用，而高质量数据的价格非常昂贵，200美金也就够博士生标个几条吧。

既然定价已出，就等 OpenAI 11月的 dev day 公布模型了，今年 AI 行业的重头戏，会是新的里程碑还是平淡如苹果发布会，让我们拭目以待！

作者：orangesai

Tags:

强化学习困局全村

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

ScalingLaw陷入困局，强化学习才是全村的希望？

“双11”上新了！兵器工业集团发布八大重器强化无人作战力量

苹果或将在明年春季推出ai壁挂式平板电脑，强化其智能家居市场

自主可控逻辑持续强化，科创芯片ETF（588200）早盘小幅冲高回落

让学习成为一种生活方式，塘桥多种形式助力全民终身学习

学习新语｜“这里的人民亲切地称呼中国人为‘老乡’”

热门文章

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

杭州：争夺机器人第一城

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

蒙曼谈人工智能冲击：守住人类对于生活的感受

成立香港仔机器人，国华（00370）按下人工智能转型加速键

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

浩物股份：公司暂未本地部署接入DeepSeek大模型