Kimi数学能力赶上o1后,月之暗面杨植麟分享行业思考
OpenAI发布GPT5之前,中国大模型公司的下一步怎么走?11月16日,通用人工智能公司月之暗面创始人杨植麟分享了他的观点与思考。 现场,月之暗面旗下Kimi发布新一代数学推理模型 k0-math,是Kimi 推出的首款推理能力强化模型,也是杨植麟技术路线思考的直观体现。在他看来,行业接下来的重
OpenAI发布GPT5之前,中国大模型公司的下一步怎么走?11月16日,通用人工智能公司月之暗面创始人杨植麟分享了他的观点与思考。 现场,月之暗面旗下Kimi发布新一代数学推理模型 k0-math,是Kimi 推出的首款推理能力强化模型,也是杨植麟技术路线思考的直观体现。在他看来,行业接下来的重
作为一门高度抽象化和具有逻辑推理特性的研究,数学建模似乎离我们很遥远。事实上,日常生活中运用到数学模型解决问题的事例俯拾皆是:打车系统里,算法会匹配距离乘客更近的司机、规划最快到达目的地的行程路线;购物平台上,算法会调配库存充足的出货仓、计算中途的运转站和物流配送车辆......对大部分人来说,使用
19日讯,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名
被誉为“工业软件之芯”的求解器,长年由国外垄断,国产自研进度如何了?最近,工信部产业发展促进中心等单位专门举办了一场比赛(首届能源电子产业创新大赛),让国产求解器在电网调度的复杂场景下PK了一番。为什么求解器这么受重视?
DeepSeek版o1来了,发布即上线,现在就能玩!模型名为DeepSeek-R1-Lite,预览版在难度较高数学和代码任务上超越o1-preview,大幅领先GPT-4o等。据了解,DeepSeek-R1-Lite使用强化学习训练,推理含大量反思和验证,遵循新的Scaling Laws——推理越长
中山大学和华为等机构的研究者提出了 LEGO-Prover,实现了数学定理的生成、整理、储存、检索和复用的全流程闭环。背景作为长链条严格推理的典范,数学推理被认为是衡量语言模型推理能力的重要基准,GSM8K 和 MATH 等数学文字问题(math word problem)数据集被广泛应用于语言模型
阿里发布了Qwen2-Math(1.5B/7B/72B)系列,Qwen2-Math是一系列基于Qwen2 LLM构建的专门用于数学解题的语言模型,数学推理能力全球第一。在Math上的评测结果表明,最大
尤其是 GPT-4 求解数学问题的能力,可以说是雪崩式下降 —— 三月版 97.6% 的准确度到六月只剩 2.4%。
大模型对齐新方法,让数学推理能力直接提升9%。上海交通大学生成式人工智能实验室(GAIR Lab)新成果ReAlign,现已开源。
家人们,o1大模型,最近着实是有点火啊。就在今天,昆仑万维的Skywork o1首发中文逻辑推理能力,并开启了邀测。那一波实测,这不就得安排一下么。类似o1模型最大的特点就是其强悍的推理能力,因此,我们直接上一道AIME数学竞赛题,看看够不够“开门”。