Deepseek新模型意外曝光！编程跑分一举超越Claude3.5Sonnet - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > Deepseek新模型意外曝光！编程跑分一举超越Claude3.5Sonnet

Deepseek新模型意外曝光！编程跑分一举超越Claude3.5Sonnet

新火种 2024-12-27

还没等到官宣，Deepseek-v3竟意外曝光了？！

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。

（相比Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%。）

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

且在LiveBench测评中，它是当前最强开源LLM，并在非推理模型中仅次于gemini-exp-1206，排在第二。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

目前Hugging Face上已经有了Deepseek-v3（Base）的开源权重，只不过还没上传模型介绍卡片。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

综合网上多方爆料来看，Deepseek-v3相比前代v2、v2.5有了极大提升——

与v2、v2.5配置对比

首先，Deepseek-v3基本配置如下：

采用685B参数的MoE架构；包含256个专家，使用sigmoid函数作为路由方式，每次选取前8个专家 (Top-k=8)；支持64K上下文，默认支持4K，最长支持8K上下文；约60个tokens/s；

BTW，在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本（该版本目前未发布）。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

为了进一步了解Deepseek-v3的升级程度，机器学习爱好者Vaibhav (VB) Srivastav（以下简称瓦哥）还深入研究了配置文件，并总结出v3与v2、v2.5的关键区别。

与v2（今年5月6日官宣开源）比较的结果，经AI整理成表格如下：

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

可以看出，v3几乎是v2的放大版，在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化：

第一，在MOE结构中，v3使用了sigmoid作为门控函数，取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择，而不像softmax函数倾向于将输入分配给少数几个专家。

第二，v3引入了一个新的Top-k选择方法noaux_tc，它不需要辅助损失。

简单理解，MoE模型通常需要一个辅助损失来帮助训练，主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下，直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。

对了，为便于理解，瓦哥用DeepSeek逐步解释了这一方法。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

第三，v3增加了一个新参数e_score_correction_bias，用于调整专家评分，从而在专家选择或模型训练过程中获得更好的性能。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

此外，v3与v2.5（本月10日官宣开源）的比较也出炉了，后者主要支持联网搜索功能，相比v2全面提升了各项能力。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

同样经AI整理成表格如下：

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

具体而言，v3在配置上超越了v2.5，包括更多的专家数量、更大的中间层尺寸，以及每个token的专家数量。

看完上述结果，瓦哥连连表示，明年有机会一定要见见中国的开源团队。(doge）

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

网友实测Deepseek-v3

关于v3的实际表现，另一独立开发者Simon Willison（Web开发框架Django的创始人之一）也在第一时间上手测试了。

比如先来个自报家门。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

再考考图像生成能力，生成一张鹈鹕骑自行车的SVG图。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

最终图形be like:

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

对了，在另一网友的测试中，Deepseek-v3也回答自己来自OpenAI？？

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

该网友推测，这可能是因为在训练时使用了OpenAI模型的回复。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

不过不管怎样，还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座，在一些网友心中，这比只搞期货的OpenAI遥遥领先。(手动狗头）

Tags:

模型意外

相关推荐

NVIDIA深度适配通义千问大模型，推出舱驾融合大模型解决方案

2024-09-20

NVIDIA深度适配通义千问大模型推出舱驾融合大模型解决方案

2024-09-20

哈啰亮相2024云栖大会：展示AI整体布局及大模型案例

2024-09-20

在线可玩！智谱开源图生视频模型，网友直呼Amazing！

2024-09-20

奥特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍

2024-09-20

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

杭州：争夺机器人第一城

2025-04-24 11:27

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

蒙曼谈人工智能冲击：守住人类对于生活的感受

2025-04-21 11:28

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

浩物股份：公司暂未本地部署接入DeepSeek大模型

2025-04-21 11:27