「后摩智能」倪晓林：未来十年是属于大模型的时代，NPU会重塑所有端边场景｜WISE2024商业之王大会

首页 > AI资讯 > 最新资讯 > 「后摩智能」倪晓林：未来十年是属于大模型的时代，NPU会重塑所有端边场景｜WISE2024商业之王大会

「后摩智能」倪晓林：未来十年是属于大模型的时代，NPU会重塑所有端边场景｜WISE2024商业之王大会

新火种 2024-12-13

11月28-29日，为期两日的36氪WISE2024 商业之王大会于北京隆重召开，作为中国商业领域的全明星盛典，WISE大会今年已经是第十二届，在不断变化的时代里见证着中国商业的韧性与潜力。

2024，是有些模糊且变化多于稳定的一年。相比过去十年，大家的脚步正放缓，发展更加理性。2024，也是寻求新的经济动力的一年，新的产业变化对每个主体的适应性提出了更高的要求。今年WISE大会以Hard But Right Thing（正确的事）为主题，在2024，什么是正确的事，成为我们更想交流的话题。

当日，「后摩智能」副总裁倪晓林带来了主题演讲，分享了AI与NPU背后所蕴含的无限可能与深远影响。

以下为演讲内容（经36氪整理编辑）

倪晓林：尊敬的各位来宾大家好！

我是来自「后摩智能」的倪晓林，「后摩智能」是一家基于存算一体的AI芯片公司。今天每个环节都在讲AI，各种AI大模型、AI设备、AI应用场景都在飞速发展。作为AI大时代的参与者、见证者，我们感到非常荣幸。下面与大家分享后摩智能对于边端侧AI算力需求变化的一些看法。

后摩智能

2022年11月OpenAI发布ChatGTP3.5，标志着AI 2.0时代的到来；2023年，大批的本地大模型发布。AI开始沿着两个路径同时高速发展。云端模型持续沿着scaling law向前演进，模型规模和参数继续增加，不断探索通用智能的边界。例如去年发布的GTP4的参数就高达1500B，也就是15000亿个参数。但追求高通用性、高智商的同时，也带来了超高的投入和高昂的运营成本。目前已经有大批的玩家开始退出了这个攀高的赛道。

与此同时，端边侧出现了更适合本地部署的7B，13B，30B等模型，和大型通用智能相比，这些模型更适合进入千行百业，解决各类实际问题。和云端“万模齐发，百模争霸”相比，端侧无疑拥有更大的应用规模，每年全球新增智能设备高达数十亿台，全球端边侧的规模想象空间更大、前景更广阔。

另外，端边侧的AI具有个性化更懂你、低时延实时性、数据隐私等优点，例如AI PC，它具有了解你个人信息的专属Agent、根据你历史文档建立的本地数据库等。

当然，目前我们看到更多的讨论还是云端模型，端边侧模型的还没有得到普及，我想除了这些软件的因素以外，还有一个很重要的影响就是硬件。端侧对的硬件要求和云端不同，可以总结为“三高三低”：高算力、高带宽、高精度、低功耗、低延时、低成本。

CPU显然无法满足全部要求，GPU虽然可以满足三高，但同时其高成本和高功耗又大大限制了端侧设备的普及使用。例如如果本地运行30B模型，我们需要一块4090显卡，但将近2万块钱的成本和近500W的功耗让绝大部分设备都无法承受。

和云端“训练”场景为主不同，边端侧大模型基本都以“推理”场景为主。专为本地大模型设计的NPU相信更加适合边端侧的使用。比如我们可以用十分之一的功耗实现GPU相同的算力，同时NPU自带大内存，无需通过系统总线占用系统内存，就完全可以流畅独立运行。NPU的成本也大大优于GPU，让现有设备+AI成为可能。

面对边端设备对AI高带宽、低功耗等需求，传统的冯.诺伊曼架构已经面临巨大挑战，特别是存储墙和功耗墙相信很多企业都已经苦不堪言。

存储墙，是指因为总线带宽有限，严重限制了数据传输的速度。

功耗墙，是指90%以上的功耗是耗费在数据的搬运中，而不是真正需要的计算和处理。

面对这两堵高墙，后摩智能采用存算一体的全新架构，实现了存储单元和计算单元的高度集成，计算直接在存储单元完成，使得功耗大幅下降，带宽大幅增加。

存算一体的AI芯片实现了AI能效比2-3个数量级提升。算力密度提升高达50%，时延较传统架构芯片更是有数倍提升。这些特点都非常适合边端侧AI大模型的需求。

后摩智能

目前，后摩智能已经自研了两代存算一体芯片架构，针对LLM类大模型，进行了专项设计。

主要体现在：

1、基于存算一体自研IPU架构，提供高并行的浮点和整型算力，自研SFU支持多种非线性算子；自研RVV多核提供了超大通用算力，可灵活支持各类LLM/CV算法；自研C2C接口，具备多颗芯片级联扩展特性，实现更大模型的部署。

2、配套的后摩大道软件工具链，简单易用，兼容通用编程语言。适配存算架构的算子库，高效利用存算IP所带来的性能/功耗优势，提升部署上线时间。

2023年和2024年，我们已经分别推出了后摩鸿途®️H30和后摩漫界®️M30两款NPU芯片，充分展现出了存算一体架构在算力和功耗方面的巨大优势。以M30为例，100Tops的强大算力，仅需12W的功耗。

在此提前预告一下，2025年，后摩将推出基于新一代“天璇”架构的最新款芯片，性能将再一次大幅提升，相信这款芯片可以加速端边设备部署大模型的进程。

后摩智能

为了方便AI设备方案商及生产商快速部署，我们不仅提供芯片，还提供多种标准化产品形态，包括力谋®️LM30智能加速卡（PCIe）、力谋®️SM30计算模组（SoM）等。对于现有各类终端设备，通过标准接口加装NPU，就可实现本地AI大模型的流畅运行。

2009年的移动互联网兴起，让我们的手机从功能机变成了智能机。2016年物联网的爆发，让我们身边越来越多的设备变成了智能设备。这些智能设备，在现有方案上，通过+AI+NPU的方式，将再次进化，成为AI大模型使能设备。

比如PC，我们看到联想已经在大面积推广AI PC了。汽车AI座舱、AI TV、AI会议大屏、AI具身智能机器人等，它们会成为更懂你、更聪明、更高效的助理、秘书、司机、文案、美工、程序员、辅导老师等等，为我们提供各种服务。希望通过后摩智能的AI芯片，助力大家实现快速升级。

1999 年到 2008 年，互联网让中国几乎所有的行业重做了一遍；2009 年到 2018 年，移动互联网把中国几乎所有行业又重做了一遍。我们相信，未来10年的AI大模型时代，NPU将重塑所有端边场景，所有的端边设备，都将再重做一遍！

希望与在座各位所有AI的企业、AI生态的合作伙伴一起多多沟通，我们一起合作携手，通过“+AI”的方式，使现有设备，以及未来将诞生的各种全新型设备，都能够流畅地运行AI大模型，期待我们一起携手共创AI的新时代，谢谢大家！

Tags:

大模型未来十年模型

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

「后摩智能」倪晓林：未来十年是属于大模型的时代，NPU会重塑所有端边场景｜WISE2024商业之王大会

畅谈AI大模型产业价值：有惊喜，也需远虑|WISE2024商业之王

阿里巴巴申请心流星辰大模型商标

阿里巴巴申请“心流星辰大模型”商标

ChatGPT刚满两岁，中美AI大模型就将进入“竞逐战”｜钛媒体AGI·2024大复盘

阿里巴巴注册心流星辰大模型商标

热门文章

全球首次！人形机器人将与人类一起跑“半马”

政协委员甄子丹：人工智能对电影行业既是冲击也是鼓励

全国人大代表刘庆峰：发展AI新岗位，试点“AI失业保障专项保险”

我国首个林草行业大模型研发成功

工学博士娄勤俭：我对人工智能有偏爱

平稳开局！今年一季度我国货物贸易进出口10.3万亿元，增长1.3%

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

人工智能概念股午后拉升，科创人工智能相关ETF涨近4%