首页 > AI资讯 > 最新资讯 > DeepSeek打响第一枪现在轮到国产芯片跟上了|万有AI力

DeepSeek打响第一枪现在轮到国产芯片跟上了|万有AI力

第一财经    2025-02-13

  “春节期间我们都在忙碌,好不容易盼来一个这么优秀的模型,没有比这更有意义的春节了。” 开源中国董事长马越告诉第一财经,开源中国旗下一站式大模型托管平台Gitee AI在DeepSeek-R1火出圈后迅速与多家国产芯片厂商推进了模型适配工作。

  而DeepSeek的冲击波也直接传递给了大洋彼岸的英伟达。英伟达1月27日美股股价暴跌后,近日开始有所反弹,但股价仍未站上暴跌前的140美元/股的高点。当地时间2月11日,英伟达收132.8美元/股,2月起英伟达股价经历数日反弹,市值也重新站上3万亿美元,但股价仍未消化完1月27日暴跌的影响。市场之所以对英伟达的“信仰”产生一定动摇,背后隐藏着AI算力需求减少的担忧。

  国产芯片同期罕见纷纷主动发声:完成DeepSeek模型适配的包括昇腾、沐曦、壁仞、龙芯、天数智芯、摩尔线程、海光信息、燧原科技、云天励飞、昆仑芯等芯片公司。“国产开源模型已经出圈,国产算力也要跟着一起出圈。” 马越觉得,国产芯片适配DeepSeek的逻辑是要让这个模型能跑在国产硬件上。

  极致压榨算力

  DeepSeek到底有没有绕过芯片硬件算力限制?是否部署大规模算力不再必要?英伟达股价暴跌后国产芯片积极适配DeepSeek,又是否意味着国产芯片开始反击英伟达?

  从能跑最热的开源模型,到拿下更多AI市场的份额,国产芯片可能还无法一蹴而就。沐曦CTO杨建告诉记者,大模型后训练部分预计今年会有更多非英伟达卡加入,DeepSeek推动的大模型私有化部署,对国产芯片而言也是机会。

  至于DeepSeek对芯片硬件算力潜力的挖掘是否意味着高性能英伟达GPU需求减少,业内人士则有不同看法。

  鉴于DeepSeek-V3训练预算低至“2048个GPU、2个月、近600万美元”,业界认为,能力比肩OpenAI o1的DeepSeek-R1模型训练成本可能也很低。这意味着大模型训练不一定需要使用大量英伟达GPU。DeepSeek的技术报告也引起了一些讨论,例如大模型团队对芯片硬件算力的深度挖掘,或提供了一条低成本、可绕开芯片算力限制的路线。DeepSeek使用了诸多方法挖掘了既有芯片的潜在算力。

  惊叹过后,AI业界和学界的分析趋于冷静。DeepSeek对既有芯片潜在算力的挖掘到什么样的程度、还能不能继续挖掘,成为讨论的焦点。近日清华、复旦、上海交通大学计算机领域的学者就DeepSeek的技术和影响展开了一场线上讨论。清华大学计算机系教授翟季冬在讨论中进行了解释,举个例子,DeepSeek团队精细化编排了计算和通信以降低通信开销,为此提出一种流水线并行算法,意在通过精细控制分配给计算和通信的GPU SM(流处理器)数量,实现计算和通信完全重叠。这种做法提高了GPU资源的利用率。为了实现优化目标,该团队在控制SM使用时就用了PTX。

  “几乎所有深度学习或大模型算法工程师都不会接触到PTX这一层,而PTX实际上是直接和底层硬件发生交互,如果你能用PTX,就可以对底层硬件进行更好的编程和调用。”上海交通大学副教授、无问芯穹联合创始人戴国浩表示,DeepSeek在算法、模型、硬件确定的情况下优化了软件,通过PTX语言优化让系统和模型释放底层硬件性能。

  戴国浩认为,此前业内做优化曾主要聚焦算法精度,后来又关注到软硬件协同优化,考虑了硬件约束,“但现在还必须面临一件事,就是可能出现算力不足或资源受限的情况。如何把资源(因素)放在优化函数上?DeepSeek给了一个非常好的答案。”清华大学长聘副教授、面壁智能联合创始人刘知远则总结为,R1及V3带来的重要意义在于,让人们看到通过有限的算力资源和强大算法创新可以突破算力限制,“小米加步枪可能取得广阔的胜利”。

  一些业界人士认为,DeepSeek提出的方法论可以继续扩大使用并产生广泛影响。“大模型生态系统从最顶层的产品应用到底层的基础设施,每一个层级都存在优化空间。是否有可能在每一个层级做优化,最终形成叠化,把整体优化性能做得更高?这是我们在DeepSeek论文中看到的一个方向。”戴国浩说,通过底层优化助力上层模型,这种优化工作还能被放在更多底层芯片中,在其团队的统计中,有大约1/3的国产芯片也能通过相应的优化释放底层硬件性能,优化后性能甚至能达3倍以上。

  不过,也有芯片业界人士认为,DeepSeek团队在底层算力优化方面已接近天花板,且相关技术难以迁移。中存算半导体董事长陈巍告诉记者,类似DeepSeek这种“压榨”GPU算力的路径还能继续走下去,但继续提升的可能性不大。

  “DeepSeek AI Infra团队的软硬件协同设计水平可能暂时超越了大部分国际大模型企业。基本上,DeepSeek团队对GPU性能利用率的优化已接近技术上限。”陈巍表示,DeepSeek使用的一些训练成本优化属于CUDA定制化技术,其他竞品企业未必有类似的定制能力,例如混合精度存储/计算属于DeepSeek内部的定制化技术,与量化交易中的FPGA优化有原理相似之处,这类定制化技术一般难以简单复制。

  争论之下,对于没有算力限制的海外公司而言,立即减少算力支出似乎还没必要。英伟达股价震荡期间,海外云厂商并未开始减少开支。美东时间2月6日,亚马逊宣布将在2025年投入约1000亿美元用于其人工智能项目的研发。市场研究机构TechInsights发布报告称,数据中心/云计算占据英伟达总收入的85%~90%,而顶级超大规模云服务商2025年将在AI上投资3200亿美元,尽管有质疑声,但科技巨头投资不减。

  虽然大模型训练算力需求是否减少仍有争议,但推理算力需求增大目前存在更多共识。TechInsights表示,DeepSeek-R1引发热议后,人工智能的前景是从训练转向推理。英伟达此前的回应也提及,DeepSeek等人工智能公司的推理过程需要大量的英伟达GPU和高性能网络,DeepSeek的成功表明市场对英伟达芯片的需求依然强劲。

  国产算力如何切入

  国产芯片近期声量颇高。

  在各家芯片厂商的描述中,适配DeepSeek模型所需时间短则一两天乃至几个小时。天数智芯相关人士告诉记者,春节期间DeepSeek成为行业焦点,公司判断R1开源可能会带来更大算力需求,开发者基于R1进行二次开发和优化训练也需要算力支持,公司与合作伙伴争分夺秒推进了DeepSeek模型的适配与上线。

  马越告诉记者,国产开源模型出圈对国产算力起到“倒逼”的作用,之所以适配速度较快,有DeepSeek优先级较高的原因。也有芯片厂商内部人士告诉记者,适配DeepSeek难度不算大,因为适配的是DeepSeek模型的推理应用而非训练。

  国产大模型出圈给了国产算力激励。

  天数智芯相关人士告诉记者,DeepSeek采用自强化学习优化算法等技术,为契合这些独特算法,芯片厂商会优化硬件架构、改进指令集,提升芯片对复杂计算的处理效率,并优化内存管理、数据传输等以适配模型结构。国产模型取得突破是加快国内“模型+系统+芯片”闭环形成的一个机会,国产模型性能提升能吸引更多国内系统和芯片厂商合作,芯片厂商也会为了支持国产模型而研发更适配的芯片。相比闭源模型,开源让不同芯片适配模型的机会增加。

  “DeepSeek做了非常好的一环,已经使国内模型超越或在某些场景超越海外模型,打响了第一枪。现在国外芯片、模型和系统已经形成一套完备的闭环生态,未来国内也会形成这样的闭环。”戴国浩表示。

  上海人工智能研究院数字经济研究中心资深咨询顾问于清扬提到DeepSeek对国产芯片的促进。“DeepSeek通过强化学习机制将模型的无效训练降低60%,对并行计算的需求较传统架构降低40%,使国产芯片在特定计算任务中的能效比可达英伟达GPU的75%。” 于清扬表示,尽管仍面临算力依赖和泛化能力的挑战,DeepSeek的创新模式已初步证明算法创新可突破算力瓶颈,美国通过A100/H100禁运遏制我国发展的策略加速失效伴随华为昇腾910B等国产芯片在性能和能效方面的持续优化,未来或将大幅降低国内企业对进口芯片的依赖。

  杨建则看到DeepSeek推动国产芯片在私有化部署领域的机会。他告诉记者,以往大模型微调、蒸馏的方法比较少,而R1不用SFT(监督微调)、LoRA这种微调的方法,只通过强化学习技术就让模型性能涌现,且这个方法的成本还非常低,这个方法也能用到DeepSeek之外的模型上。

  一般而言,蒸馏技术可以将“教师模型”的能力注入参数量较小的“学生模型”中,蒸馏技术越好,“学生模型”的能力就有可能越强,而参数量较小的模型较适合私有化部署。杨建认为,DeepSeek的方法会促进大模型在垂直领域落地,DeepSeek促使的大模型应用端爆发,将会从私有化部署领域开始。“2025年国产GPU的一个机会在于私有化部署,基本上这个市场会以大模型后训练和推理为主。”杨建告诉记者,基于英伟达应用于AI领域的GPU进入国内市场的方式,英伟达卡在零售市场上基本消失了,而私有化部署较依赖零售市场。若私有化部署市场爆发,国产卡将会有很大机会。

  2月6日,DeepSeek已暂停API(接口)充值服务,DeepSeek官方解释为服务器资源紧张。在API方式之外,作为一个开源模型,DeepSeek-R1也能由个人或企业自己部署于自有服务器上。电商平台上近日涌现出不少做DeepSeek本地部署生意的店面,侧面印证了市场对DeepSeek私有化部署的热情。记者留意到,有以约15元单价售卖DeepSeek本地部署教程的店面已售出3000份以上商品。

  杨建告诉记者,随着海外芯片算力限制带来的难题逼近,全球算力可能会形成两条并行路线,逐渐脱钩。到2026年、2027年,美国预训练和后训练的算力基座预计仍是英伟达,在国内则是有一部分由英伟达承担、一部分由国产芯片承担。其中,后训练部分今年逐渐会有更多非英伟达卡加入,这是因为后训练对集群要求相对较低,不太需要千卡以上集群。天数智芯相关人士也告诉记者,随着国产模型取得突破,对国产芯片适配需求增加,今年国产芯片有较大发展机会。

  DeepSeek模型的火热也暗含着AI应用爆发的机会,芯片厂商将目光转向AI应用所需的推理算力。“去年国内评测芯片时主要着眼训练,将国产芯片作为英伟达训练的替代品,2025年开始将有一个变化,即大家会逐渐看国产芯片在推理市场的机会。”杨建还表示。

  差距依然巨大

  国产芯片看到了机会,但反击英伟达的过程,仍是循序渐进。一些业内人士强调了英伟达生态的护城河之高以及国产芯片目前的短板。

  虽然多家芯片厂商短时间内就适配了DeepSeek模型,但马越告诉记者,国产芯片适配开源模型的情况相比英伟达仍有差距。“开源社区HuggingFace有上百万个开源人工智能模型,我们平台是1万多,这些模型都能自由流畅地运行在英伟达GPU上,但是我们合作最多、时间最长的一家国产芯片厂商,现在也只适配了500多个模型。”马越表示。

  是否容易适配基于英伟达GPU开发的DeepSeek等大模型,与芯片是否兼容CUDA有关。杨建表示,能兼容CUDA的厂商,彼此间兼容程度也有不同。有业内人士告诉记者,有对CUDA兼容程度较低的芯片厂商实际上投了上百人的团队并花了一个多月时间才适配了DeepSeek-V3。而完成适配和优化的速度,对模型能否及时上线并进行商业转化至关重要。

  “一般情况下模型大概3~4个月就会迭代一次,如果兼容一个生态、适配一个模型需要很长时间,就意味着赚不到钱。”杨建表示,公司曾遇到连续4周都有新模型出来的情况,每周都要完成相关优化工作,每一个模型差不多要在1~2天时间内完成。

  DeepSeek推出的R1和R1-Zero两个660B参数(B即十亿)的同时,也蒸馏了6个参数较小的模型给开源社区。就适配情况,陈巍告诉记者,目前国产芯片适配较多的还是蒸馏模型,实际功能可能会打折扣,对国产芯片厂商而言,较大的机会在于DeepSeek蒸馏模型后续的训练和部署。

  而在大模型预训练方面,由于英伟达生态较完善和互联技术较先进,一些业内人士认为目前其他芯片还难以取代英伟达。陈巍表示,若要进行参数量6000亿以上超大规模模型的训练和部署,国产芯片还面临互联和生态上的挑战。训练上,目前大模型对于高速互联要求较高,国产芯片多数达不到英伟达的互联性能,如果单独让DeepSeek团队去支持国产芯片,该团队就要针对整个生态做国产芯片适配,工作量大到“10个DeepSeek也不够”。

  陈巍强调,DeepSeek目前对英伟达CUDA生态仍有明显的路径依赖。包括做MoE(专家)模型的DeepSeek在内,市面上能看到的MoE模型绝大部分是基于CUDA生态训练和部署, DeepSeek的成本优化技术也是基于CUDA生态的定制化技术。基本上大模型训练和优化还是需要基于英伟达CUDA生态。

  杨建也表示,全球98%的大模型训练基于英伟达的算力,训练离不开英伟达GPU。虽然今年更多非英伟达卡将有机会进入后训练部分,但短期内占比也相对较低。

(文章来源:第一财经)

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。