又一机构发布推理模型大模型从ScalingLaw转向多样化探索

首页 > AI资讯 > 最新资讯 > 又一机构发布推理模型大模型从ScalingLaw转向多样化探索

又一机构发布推理模型大模型从ScalingLaw转向多样化探索

第一财经 2024-11-28

　　自9月OpenAI发布全新AI推理大模型GPT-o1后，国内企业机构也开始了密集的更新，同步到推理模型的进程。

　　11月25日晚，上海人工智能实验室向社会用户开放了书生·浦语大模型，并在大模型界面发布了强推理模型InternThinker。据悉，InternThinker模型具有长思维能力，并能在推理过程中进行反思和纠正，从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。

　　这个月已有多个推理模型的发布。11月16日，月之暗面Kimi宣布推出新一代数学推理模型k0-math，号称数学能力对标OpenAI o1系列。11月20日，DeepSeek发布推理模型DeepSeek-R1-Lite，称模型通过强化学习训练，在数学、代码和复杂逻辑推理任务上表现媲美o1-preview。

　　发布推理模型已成当前AI行业的一大趋势，上海人工智能实验室青年科学家陈恺在接受第一财经采访时表示，“目前大模型的头部机构都有研发和发布推理模型的计划，因为推理能力是大模型智能水平的重要体现，也是面向复杂应用场景的必备能力。”

　　强大的推理能力是迈向通用人工智能的重要基础。从应用层面来看，陈恺认为，模型推理能力的进一步提升将会带来更多的智能应用场景，可以和人更好地协作进行思考和解决高难度任务，从而推动大模型在生产力方面的应用。

　　在具体应用上，陈恺举例表示，一般的大模型可以在读完一份财报之后帮忙整理其中的关键信息，如果是具备强推理能力的模型，未来就可以像分析师一样帮助分析财报中的数据，给出合理的研究和预测。

　　在提升模型推理能力方面，陈恺提到，目前主要的难点是高密度监督数据，例如高难度的问题和更详细的思维链，这些数据在自然文本中占比很小，需要研究有效的构造方法。此外，推理能力目前的提升路径依赖有效的强化学习，在强化学习中如何提升模型的搜索效率，如何训练泛化且可靠的奖励模型以便于获取反馈也是难点。

　　OpenAI 9月发布的o1模型展示出强大的推理能力，在提升模型推理能力的研究中，据介绍，实验室采用的是相对独立的路线，通过设计元动作思考范式来引导模型的搜索空间，基于通专融合的方式进行数据合成，并通过构建大规模沙盒环境获取反馈，从而提升模型的性能。

　　具体来说，人在学习解决复杂推理任务时，并非从海量的样本中进行单点知识的学习，而是思维模式的学习——在解决问题的过程中，通过回忆相关知识点，对正确的解题过程进行理解、记忆，对错误解题等过程进行反思和修正，即对自我的认知过程进行觉察和调节，该能力也被称作元认知能力。

　　受元认知理论的启发，实验室的研究团队设计了一系列元动作来引导模型解决问题的过程，如对问题的理解、知识回忆、规划、执行、总结等。模型在面对复杂任务时，会显式且动态地选择元动作，再进一步展开相关动作的具体思维过程。通过这种设计，利用部分训练任务，可强化模型对关键元动作组合的使用，提升模型学习效率。

　　随着大模型的不断发展，陈恺认为，目前行业的研究方向从按照Scaling Law（尺度定律）简单地放大模型参数量和数据，转向了更多样化的探索。他预测，未来一部分资源投入会从预训练转向后训练，包括使用更多的推理算力来换取模型更好的性能，以及强化学习的大规模应用。

　　此前在发布推理模型时，谈及Scaling Law是否还有效，月之暗面Kimi创始人兼CEO杨植麟也提到了Scaling law 的范式转换，他认为，过去大模型的路径是“next token prediction”，但预测下一个词有局限性，是一个静态的数据集，没办法探索更难的任务，接下来大模型的目标是通过强化学习让AI具备思考的能力。

　　“接下来还能持续scale，只是过程不一样。”杨植麟认为，预训练还有半代到一代模型的空间，这个空间可能会在明年释放出来，但是他判断，接下来最重点的还是强化学习。

（文章来源：第一财经）

Tags:

强化学习模型机构

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

又一机构发布推理模型大模型从ScalingLaw转向多样化探索

学习新语丨习近平主席这样谈全球互联网发展治理

付费自习室，谁在“表演性学习”？

高股息驱动逻辑强化，红利资产短期存修复预期

普陀区2024年贯彻落实《党史学习教育工作条例》主题活动举行

台积电“强化版芯片”赴美遭嘲讽

热门文章

【焦点复盘】权重护盘引领指数深V，中证2000一度跌逾4%，深海科技概念再获热捧

2月21日夏厦精密涨停分析：人形机器人，机器人，减速器概念热股

95后知名游资被开了9500万“假罚单”，监管官方辟谣也来了

0326东吴宏观股指每日观点|市场弱势震荡磷化工领涨

DeepSeek官宣V3小版本升级强在哪被赞“开源里程碑”

将设人工智能、机器人等“专场”科创板年报业绩说明会看点多

这家医院智慧医疗再升级实现DeepSeek大模型本地化全信创部署

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议

Intel前CEO基辛格有了新身份：AI宗教公司Gloo董事长