热点速递-OpenAIo1模型：强化学习提升推理能力，关注应用前景与成本优化

首页 > AI资讯 > 行业动态 > 热点速递-OpenAIo1模型：强化学习提升推理能力，关注应用前景与成本优化

热点速递-OpenAIo1模型：强化学习提升推理能力，关注应用前景与成本优化

新火种 2024-11-18

一、前言

北京时间2024年9月13日凌晨，全球AI产业领头羊OpenAI正式发布一系列旨在专门解决复杂任务的全新AI推理大模型o1，即之前酝酿已久的草莓模型。根据OpenAI官方推特，o1系列模型将包括o1、o1-preview和o1-mini，其中o1-preview已开放使用，ChatGPT Plus和Team的用户以及API使用等级达到5级（API付费超1000美元）的开发者已获得该模型访问权限，企业版和教育版的用户预计将从9月16日起获得该模型访问权限。与此前The information、The medium等媒体报道基本一致，o1模型在功能、推理和性能表现上基本符合预期。

市场普遍认为，OpenAI新一代AI推理模型o1系列的发布标志着AI在处理复杂任务领域进入新的发展阶段。此次发布的模型在推理能力和性能上取得了显著提升，有望加速AI技术在各个领域的应用，包括自然语言处理、医疗诊断、自动驾驶等。AI技术在实际应用中的落地将显著提速，特别是在企业级应用和教育领域。此举将进一步激发AI技术在行业中的创新潜力，推动商业和学术领域对AI的更深入探索和开发，进而带动AI产业链上下游企业的共同发展。相关产品人工智能AIETF（515070）及其联接基金（008585/008586）。

二、OpenAI o1模型发布：强化学习提升推理能力，应用前景与成本优化引关注

（1）模型机理及评测效果：强化学习加持下编码/数学/推理能力提升显著

根据OpenAI技术博客，o1模型在训练过程中引入了大规模强化学习算法，从而加强了其执行复杂推理任务的能力。而根据“Reinforcement learning: An introduction”（Sutton），强化学习起源于上世纪60年代，旨在通过奖惩机制让智能体在复杂环境中最大限度获得长期全局最优收益。强化学习主要包括定义问题、选择策略、学习价值函数（如Q学习）、模型控制和策略优化等步骤。此前谷歌围棋机器人AlphaGo的核心技术即为强化学习。在应用该项技术后，o1系列模型的输出过程与GPT系列模型存在显著不同：o1系列模型会先用至多20~30秒产生较长的思维链再进行输出，即先将复杂任务拆解为子任务进行分析，在汇总子任务结果后输出最终结果，而非GPT系列模型立即开始生成的模式。根据OpenAI官网，o1模型在理科测试、数学、编程等绝大多数推理任务中表现明显优于GPT-4o，甚至在部分推理密集型基准测试中o1模型的表现与人类专家相媲美。例如，在国际奥林匹克资格考试中，o1正确解答了83%的题目，而GPT-4o仅正确解答13%；在PhD水平科学问答测试中，o1和o1-preview表现均优于人类专家与GPT-4o。

（2）市场定位：安全性与推理能力显著提升有望解锁应用，模型成本有待优化

根据OpenAI官方技术博客，思维链可有效提升模型的安全和对齐水平：1）思维链可清晰的展示模型思维；2）将模型行为策略整合到推理模型的思维链中，可以高效、稳健地教导人类价值观。我们认为，目前AI产业的主要矛盾是推理能力不足和成本过高导致的爆款应用匮乏。而在安全性有保障的前提下，推理能力的显著提升使得o1有望逐步解锁应用。但由于庞大的推理算力需求导致的高成本和纯文字反馈的输出形态，我们预计短期内o1的应用场景仍将集中于编程和科研等特定高价值生产力场景，OpenAI官方亦推出了更加擅长编程的且更便宜的推理模型o1-mini。根据OpenAI官网，o1-preview定价为输入端15美元/百万token，输出端60美元/百万token；o1-mini的定价为输入端3美元/百万token，输出端12美元/百万token；GPT-4o的定价为输入端1.25美元/百万token，输出端为5美元/百万token。

（3）趋势展望：推理阶段有望遵循Scaling Law，多模型配合值得关注

在研发o1模型时，OpenAI发现给予模型更多的推理时间可有效提高模型的性能，即推理阶段的Scaling Law。这一发现在一定程度上意味着推理端的算力需求有望迎来蓬勃增长。同时目前o1系列模型的访问限制也从侧面证明了模型算力需求之旺盛。根据OpenAI官网，目前o1-preview使用限制为每周30条，o1-mini为每周50条。此外，我们认为，应用层面的多模型配合亦值得关注。根据“Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models”（Jinliang Lu, Ziliang Pang, Min Xiao等），多模型协作具有整体性能提升、多任务处理能力增强、计算效率提升、错误与幻觉减少、知识共享与能力迁移等优势。多模型协作既可发生在大模型之间，也可发生在大模型与小模型之间。多模型协作策略可分为融合、集成和合作三种，其中合作方法下不同模型兼容度最高最为灵活，可创造出更加全面高效的AI系统，因此具备相当潜力。

三、OpenAI引领大模型迭代，国产大模型加速商业化进程

OpenAI引领下，大模型领域迎来新一轮迭代，国产大模型商业化进程备受关注。近期，国产大模型在更新迭代上取得显著进展，国内厂商纷纷发布新版模型或推出新应用产品，不断完善模型性能，拓展应用场景。目前，大模型技术已逐渐融入效率办公、创意创作、智能搜索、实时互动等日常生产生活中，为用户提供更丰富的功能与服务。从模型性能的角度看，国内大模型与国际领先模型的差距正在逐步缩小。根据SuperCLUE的最新数据，国内外TOP1模型的差距比例已从2023年5月的30.12%缩小至8月的1.29%。这一变化表明，国内大模型在中文领域的通用能力正在不断赶超国际水平。在OpenAI o1模型的引领下，国产模型有望加速技术迭代，进一步提升性能和应用广度，为商业化开辟更广阔的空间。国产大模型的快速发展不仅有助于推动AI技术在国内各行业的广泛应用，也将为全球AI产业的发展注入新的动力。在OpenAI1模型的引领下，国产模型有望加速迭代进程，持续打开商业化空间

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热点速递-OpenAIo1模型：强化学习提升推理能力，关注应用前景与成本优化

“双11”上新了！兵器工业集团发布八大重器强化无人作战力量

苹果或将在明年春季推出ai壁挂式平板电脑，强化其智能家居市场

自主可控逻辑持续强化，科创芯片ETF（588200）早盘小幅冲高回落

让学习成为一种生活方式，塘桥多种形式助力全民终身学习

学习新语｜“这里的人民亲切地称呼中国人为‘老乡’”

热门文章

百度版深度思考模型免费上线！API定价比DeepSeekR1再砍一半

英伟达最新AI芯片架构命名Feynman：纪念物理学家费曼

通用汽车与英伟达达成合作：将AI技术应用于自动驾驶汽车

即时AI搜索激战：抖音向左做百科，小红书向右攻点评

OpenAI自曝GPT-4.5马上发布、GPT-5免费无限用，推理模型o3-mini或成为绝唱｜钛媒体AGI

京东集团创始人刘强东现身香港：参观人工智能项目

谷歌称不再禁止AI武器化“对社会有好处”

宇树科技人形机器人京东线上首发，售价9.9万元起

OpenAI打小报告，要求禁用DeepSeek