首页 > AI资讯 > 行业应用 > AI将爆发哪些超级应用?

AI将爆发哪些超级应用?

新火种    2024-12-03

文:任泽平团队

2023年ChatGPT横空出世,人工智能上半场开启近两年,海量企业加入AI赛道,却鲜有成功的、实现盈利的商业模式。

本质是缺乏超级应用,没有新的需求创造,在终端消费没有引爆点。

互联网时代上半场,集成电路技术为手机、PC铺路;下半场“iPhone时刻”对传统手机、软件服务进行革命,全球掀起智能消费电子浪潮,是历史上著名的超级应用。

人工智能下半场,全球也在等待AI超级应用。AI超级应用才是大多数人的机会。

第一类是具身智能体路线,如自动驾驶、人形机器人:AI像人一样、拥有一个物理的躯体,能感知、能互动,能主动地进入到“真实世界”。

第二类是超级AI软件,在辅助办公、作图、视频生成、教育等领域潜力巨大。基于大模型进行定制化扩展升级,将“超能力”带给各行各业。

第三类是AI消费电子,如AI PC、AI 手机、XR设备和脑机接口技术,对传统设备进行AI升级,或在新技术上开发新的需求,和元宇宙结合。

拥抱超级应用,也要重视AI对社会的影响。人类的道德伦理能被AI“理解”吗?什么样的数据是“基本”事实?哪些算法是衡量“公平”的指标?大模型由现实世界训练而来,因此AI也是社会的镜子。 这些问题还需要更深层的审视和技术规范来解决 。

正文

1AI上半场,大模型和芯片大突破

1.1 上半场大模型算法诞生“思维”

人工智能上半场,算法进步铺垫了半个多世纪,催生出“百模大战”,人工智能概念始于1955年筹办达特茅斯会议,先后经历了统计语言模型、专家系统、神经网络、深度学习等阶段。

2019至2022年,预训练模型(Pre-trained Model)井喷式出现;2023年,首个真正意义上的大语言模型(Large Language Model)ChatGPT落地,开启全球人工智能元年,谷歌、Meta、亚马逊、百度、阿里、腾讯等科技巨头先后加入,AI初创企业如雨后春笋,大模型开启“炼丹”时代。

大模型与其他模型最大的区别在于“涌现”能力,出现类人的“思维方式”。在预训练阶段,随着模型规模的扩大和参数量提升,在超过某一阈值后,模型准确度突然大幅提升,例如GPT-3、PaLM、LaMDA等模型在参数量达到百亿级别时表现出涌现。

1.2 上半场,芯片算力爆发、一“芯”难求

GPU取代CPU成为AI算力载体。早期AI训练任务由CPU来完成,但效率较低。转折点在2012年10月,佛罗伦萨计算机视觉会议上,只用了4颗英伟达GPU的AlexNet击败了用了16000颗CPU的谷歌猫,成为了“冠军算法”,轰动AI界,此后GPU训练开始被广泛认可。AlexNet研发主导人辛顿也因对人工神经网络贡献获得2024年诺贝尔物理学奖。

对比看,CPU擅长于少量的复杂逻辑运算,相当于计算机的“大脑”。而GPU擅长于大量的简单相似计算,用于图形处理,相当于“视觉神经”。由于AI模型需要大量的并行乘法、加法运算,GPU的优势更明显。

AI发展遇上GPU迭代的“算力及时雨”,芯片需求大幅扩张,上游成为最大受益者。根据英伟达数据,GPU的性能在过去20年提升达到1000万倍,截止2023年底,英伟达的GPU产品已占据全球92%数据中心市场份额。2024年Q2,英伟达实现营收300亿美元,同比增长122%,净利润达到166亿美元,同比上升168.24%。

AI企业将2024-25视作布局的关键两年,英伟达加速GPU扩产,供不应求。谷歌2024年在芯片、设备及资产上的投入已攀升至约500亿美元,同比增幅超过50%。为布局2025年AI赛道,Meta已向英伟达下单价值约100亿美元芯片;微软正筹备在2025年Q1前为OpenAI配置5.5万至6.5万颗GB200芯片,价值约30亿美元。

2 AI下半场,机遇就看AI超级应用

什么是超级应用?

一是将前沿技术应用在人们可以广范接受的消费领域。比如硬件领域的“iPhone时刻”,触控屏并非苹果首创,但苹果设计师发掘了消费者的使用偏好,改变了手机使用习惯,让人们广泛接受了触控移动设备。

再比如,软件领域谷歌、百度搜索引擎网站的出现。在早期互联网还是直接输入网址的时代,搜索引擎极大程度提升了上网的便捷性,拓宽了互联网的潜在用途和可探索边界。

二是能制造需求引爆点,形成创造新增长、新应用的“链式反应”。例如,智能手机的硬件革命,将互联网时代的核心用户场景从PC转移到了手机,科技企业在软件开发上竞争,掀起了多轮App应用开拓和迭代,逐渐将个人生活需求与移动互联网形成深度绑定。开辟了移动出行、电子商务等新应用领域,创造了新的用户需求和消费趋势。

从龙头AI公司战略布局出发,可推测超级应用的发展走向。

大模型龙头公司:OpenAI当前聚焦于解决盈利难题,业务重心转向扩大商业化场景。由于模型算力和训练成本高昂,OpenAI至今未盈利。ChatGPT在2023年底有1.8亿用户和1亿付费月活。最新预测2024年营收也将达到50亿美元,即便如此,管理层对今年实现盈利仍没有做出期待。另一方面,OpenAI已经调整治理和经营架构,将目标从实现可控AGI转向了AI商业化和市场拓展方面投入:推出了Sora、GPT-4o等差异化模型来探索应用场景和订阅增长空间。Appfigures数据显示,2024年5月GPT-4o的发布推动了其APP端收入增长高达40%。

算力龙头公司:英伟达的新增长曲线全部聚焦于AI软硬件应用和服务,主要在人形机器人、自动驾驶汽车、AR/VR设备领域。①英伟达主导了OpenUSD项目和Isaac系列,前者用于创建和模拟复杂3D数据,后者服务于加速机器人应用的开发工程,两者都专注于机器人领域的算法和工程实现、验证。②发布Jetson Thor专用芯片,为高阶自动驾驶、人形机器人等需要高性能推理的边缘计算领域而设计。③开发了Isaac Sim和MimicGen NIM两种工具包,主要用于AR/VR穿戴设备的实时动作捕捉,并进行数据生成。

3 AI超级应用,先看具身智能与AI软件

3.1 AI具身智能:人形机器人

英伟达创始人黄仁勋认为,下一波的人工智能浪潮是“具身智能(embodied AI)”,人工智能可以真正理解、推理并与物理世界互动。人形机器人结合AI算法与控制、感知硬件,让AI拥有人类形态,是“具身智能”的集大成者。

人形机器人不同于以往的机器人。AI超级应用的人形机器人指的是“具备高度自动化、智能化、集成化的通用机器人”。类比AI就像是“通用智能与机械智能”的区别。传统机器人如工业机器人、服务机器人和特种机器人技术已经较为成熟:在工业领域的移动搬运、自动物流、工业制造、电网自动巡检等;服务领域的家用扫地、酒店自动配送等已经有大量的商用案例。而以特斯拉Optimus为代表的通用机器人不限于特定应用领域,在设计上可以像人一样从事各种复杂的、高难度任务,因此对大模型的算法和算力水平要求更高。

从设计理念上看,通用人形机器人的设计理念是为了模拟人类的一些关键特性,例如直立行走、双手操作工具的灵巧性,以及最重要的智能。为了实现这些功能,人形机器人的关键要素包括人机交互算法、先进机械结构、运动控制算法、环境感知、机器臂与灵巧手等,从而形成能够模拟人类步伐的双腿、能够执行类似人类动作的双臂和双手,以及能够感知、理解并响应外部环境的“大脑”。

人形机器人的核心技术还是人机交互算法和运动控制算法:①人机交互算法,即从通用类大模型上移植的核心“思维方式”,决定了机器人理解人类指示、理解周围环境、做出相应的反馈或智能化的交互能力。②运动控制算法决定了机器人的运动能力,通过计算所需力和力矩来驱动关节来运动,尤其是在复杂地形、和存在外部干扰的场景,如何确保机器人的行走、操作、平衡和稳定性。③此外,突破机器人的机械结构、传感装置的技术难点,降低综合成本、提高运行的可靠性和稳定性也是业内努力的方向。

特斯拉作为该领域先行者,于2021年8月AI Day首次发布Tesla Bot计划,2022年2月推出Optimus人形机器人。初代Optimus能完成招手、拧螺丝等简单动作,但行动不算流畅。2024年5月的第二代Optimus搭载了视觉神经网络和FSD芯片,技术源于电动车自动驾驶的成熟方案,不仅能实现流畅行走,还能精准地完成复杂的分拣工作(动力电池单元),离完全实现自动化迈进了一大步。2024年10月12日,“Tesla:We Bot”发布会上的Optimus更上一层楼,在行走、抓取、握持等能力上有了突破性改变,并且通用智能水平更高,可以与人自由交流。

马斯克预计2026能实现人形机器人大规模上市。当前Optimus已经有两台部署在特斯拉工厂工作,制造成本能控制到1万美元/台。特斯拉在短短两年半时间里将Optimus快速迭代,让社会看到了人形机器人量产、落地、大规模应用的可能性。同时,多模态大模型的蓬勃发展又为机器人技术成型注入新的血液,通用机器人极有可能成为功能最完备的“具身智能体”。

有实力的人形机器人公司尚集中在美国:除特斯拉外,OpenAI、英特尔、英伟达、三星等多家头部企业投资的Figure AI也在2023年发布了首款机器人,并与宝马达成合作,未来陆续将人形机器人部署于汽车总装车间岗位。由得克萨斯大学实验室孵化、和NASA共同开发人形机器人的Apptronik也在2024年与奔驰达成合作,让其发布的人形机器人参与产线流程作业。中国的优必选是国内较早研发人形机器人的企业,成立于2012年,其工业版人形机器人Walker S已部署于蔚来汽车总装车间,并陆续与东风、一汽大众达成合作,预计2026年将在工厂端放量。

3.2 AI具身智能:自动驾驶汽车

自动驾驶汽车可能是最早实现大规模落地的“具身AI”超级应用。

一是因为汽车的复杂性和普及程度适合与AI技术结合。汽车是复杂度仅次于飞机的现代工业品,也是附加价值最高的可选消费品,拥有上万个电子零部件。同时,汽车的架构也在向“中央集中式”和云计算变革,与AI技术可以实现“1+1>2”。

二是智能汽车相当于“带轮子的机器人”,由于两者的技术难点(算法)和核心零部件(传感器、算力芯片)相似,智能汽车肩负着给人形机器人研发开路的使命。高度智能化的汽车也能在不同场景中学习,模型在迭代中不断提升自身驾驶决策的准确度。

智能驾驶就是最好的“用硬件跑AI”。全球不少企业都有技术积淀:国内的百度Apollo已经能实现L4级自动驾驶,萝卜快跑截止2024年7月完成自动驾驶订单约82.6万单。海外的自动驾驶综合服务商Waymo也在2024年扩大了服务区,在8月初周单量翻了一倍,服务人数超过10万人。车企方面,赛力斯、小鹏、理想处于国内第一梯队,优势主要在高速和城市领航方面。特斯拉在海外的优势是FSD的数据驱动能力和“BEV+Transformer”算法框架。

从实践情况看,各车企和智能驾驶解决方案供应商都在竞相打造智算中心。特斯拉的DOJO智算中心,预计到2024年10月,总算力将达到100,000PFLOPS,相当于约30万块英伟达A100的算力总和。国内,商汤位于上海临港的上海人工智能计算中心(AIDC)算力已达到14,000 PFLOPS(截至今年8月);华为车Bu的ADS训练算力达3,500PFLOPS(截至今年7月);理想训练算力达5,390 PFLOPS(截至今年8月)。

特斯拉掀起“端到端”的自动驾驶变革。2023年马斯克直播试驾,展示了FSD Beta V12——有史以来第一个端到端AI自动驾驶系统(Full AI End-to-End),从智算量级来看,V12比上一代高出几个数量级:V12的C++代码只有2000行,而V11有30万行。

传统智能驾驶解决方案是模块化的,包含许多人为设定的规则(hand-crafted、rule-based)部分。一套模块化智驾方案以感知模块—规划模块—控制模块为主脉络,模块间联系紧密,每个模块都有输入端与输出端;前一个模块的输出是后一个模块的输入。程序实现上效率低、成本高,需要提前通过代码告知计算机制订行车方案。

端到端(end-to-end)更接近于人的驾驶实践。只需要一个神经网络模型,模型输入端输入摄像头、激光雷达、毫米波雷达等传感器所搜集到的信息,输出端便可以直接输出控制车辆方向和速度的操作指令。中间不需要任何人为设定的规则。与模块化相比,从感知环境到执行驾驶操作只需依靠直觉和经验。程序实现上更高效,由于模型不是由表征规则的代码驱动的,而是全部依靠基于海量数据的机器学习。

从智能驾驶解决方案的上限来看,端到端的上限空间更大。第一,模块化方案的环节间存在信息遗失问题;而端到端则不存在这个问题,因此端到端的最优化是全局最优化。第二,模块化方案中的规划模块具有许多基于规则的代码,然而规则是无法穷举的,模块化方案无法应对长尾场景;而端到端模型是基于数据而非规则的,经过深度学习,模型会习得类人的处理方式且具备相当的举一反三能力,从而具备更优秀的长尾场景应对能力。

端到端已经成为行业共识,但该技术的发展也必然伴随着掣肘因素,训练模型(神经网络结构)、训练数据、训练方法(参数优化方法)、算力(云端、车端)等都是端到端技术成熟度的决定因素,其中数据又是最重要的一个。端到端模型的实现本质是一个机器学习的过程,前提是提供给计算机足够多的、覆盖面广的、优秀的学习案例。少量训练数据最多只能支撑完成demo,而端到端技术的成熟必然需要海量优质训练数据的支撑,如马斯克所说:“用100万个视频case训练,勉强够用;200万个,稍好一些;到了1000万个,就变得难以置信了。”

在解决数据掣肘方面,有两个渠道:一是来源于真实世界的优质驾驶案例,如马斯克通过FSD影子模式创建的数据闭环;二则是源自虚拟世界的虚拟真实案例,如利用世界模型(World Model)生成的驾驶场景、驾驶案例。未来各车企与智能驾驶解决方案商如何攻克数据难关值得关注。数据之外,端到端技术的成熟要求配备足够的训练算力。支持端到端模型的训练需要海量算力支持,但目前还难以支持方案到达量产阶段。

中国智能驾驶产业的发展以“车路云一体化”为设计理念,是“单车智能”+“车路协同”双线发展。2024年上半年我国L2级的新乘用车渗透率超过50%,保守估计,到2030年,L2级以上车型的渗透率将超过80%。

我国推进车路云一体化研发及应用目前存在两大主要问题:当前“车路云一体化”研发以及示范仍为初级阶段,车端系统仍然以单车智能为主,车企数据尚未接入云控基础平台;绝大部分“车路云一体化”系统仍然为烟囱型架构,未实现分层解耦、跨域共用。这也是网联式智能驾驶迄今为止尚未形成商业闭环的两大原因。未来,路侧、云侧基础设施建设任重道远。下一步发展重点在于智能网联基础设施改造,这对未来智能驾驶实现,AI超级应用率先落地的意义重大。

3.3 AI助手:AI超级应用软件

AI助手是当前最快落地的AI超级应用软件,也是“百模大战”的直接产物。对个人消费者,用AI升级办公、生活体验已经迅速成为潮流。

AI助手不仅是简单的查询工具,还是能够理解复杂的用户需求,并提供个性化服务的成熟应用:可以完成文本创作、会议记录、实时翻译、头脑风暴、PPT创作、快捷搜索、文件与图片识别、信息处理等日常工作任务。在生活中,也可以委托AI助手处理制定旅行计划、安排行程、在线购物、管理邮件、远程操控智能家居等。

微软在2023年9月推出Copilot,将传统办公软件升级为Office+AI,减轻工作负担、提高工作效率,开启了新一轮办公室生产力革命。截止2024年8月,用户已用Copilot进行聊天超130亿次,服务企业超5万家。验证了“AI+办公”商业模式的可行性。

AI助手的技术实现源自大模型的技术衍生。比如Copilot采用的是微软投资的OpenAI开发的GPT4模型,此外还利用了DALL-E 3技术,使得AI助手不仅能回答文字问题,还能根据文本描述生成相对应的图片。这也是微软能抢先占据AI办公的核心优势。

国内的主要AI助手有字节跳动的豆包、百度Comate、腾讯元宝、讯飞星火、月之暗面的KimiChat等,各自具备差异化优势。

百度Comate是专注开发者群体的智能代码助手,擅长专业代码领域、有助于推动AI原生应用落地。腾讯元宝信息覆盖全面,依托腾讯的生态系统,有微信公众号的丰富内容和原创资源。讯飞星火在语音识别和语音合成方面表现出色。KimiChat的超长文本处理功能较强,支持处理和输出达20万字的文本。豆包的优势是功能丰富、操作便捷,且在推出浏览器插件后可以随时调用AI功能,极大提升工作效率。

3.4 AI作图、视频生成

AI进行图片、视频创作的主要原理是对抗学习(GAN):通过训练两个模型,一个生成与真实数据相似的“假图像”,另一个负责判断图像的真伪,并反馈学习成果。在两个模型的对抗任务下,逐渐生成逼真的图像作品,并根据需要切换为不同的艺术风格。

AI图片生成在to C和to B端都有海量应用潜力。个人应用的创意绘画、AI写真、修图;商业领域,从新兴的平面设计、电商设计、肖像设计、到传统的服装、包装、工业领域都能实现极大的成本节省和效率提升。比如妙鸭相机在AI写真领域有一席之地,由阿里云提供算力支持,能实现照片的快速合成和调整。再比如Midjourney、Stable Diffusion在AI绘图领域也十分热门,建筑、插画、动漫、装修到线稿、商业设计等都实现了场景覆盖。

在AI视频创作领域,2024年初横空出世的Sora有望极大降低短剧制作的综合成本,解决“重制作而轻创作”的共性问题,短剧制作的重心未来有望回归高质量的剧本内容创作。Sora或许能真正为传媒、文化、游戏等相关行业的企业降本增效,广告制作公司通过Sora模型生成符合品牌的广告视频,显著减少拍摄和后期制作成本;游戏与动画公司使用Sora直接生成游戏场景和角色动画,减少了3D建模和动画制作成本。企业节省下来的成本可以用于提高产品、服务质量或者技术创新,推动生产力进一步提升,对现实的影响与改变,不可不谓之巨大。

3.5 AI教育

教育是科技和社会进步的根基,在AI教育领域美国已经提前布局,中国需加快追赶。根据Sensor Tower数据,美国AI应用市场下载量前三分别是ChatGPT、Copilot,以及AI教育软件Question AI。

教学支持上,AI能帮助教师备课、作业批改、考试出题、智能阅卷、虚拟实验等。比如科大讯飞的星火教师助手,可以设计完整的教学方案,包含单元主题、教学目标等模块化内容,智能匹配大纲所要求的学习任务。为老师节省大量时间经历,同时附带了精准、贴切的教学素材。

学生辅导方面,AI应用可以实现个性化精准学习,让学生获得和人类老师辅学相等的互动式体验。比如Question AI最核心的功能——拍照答题。AI也能充当外语口语陪练,进行电子家教辅导、作业查漏补缺等,对于学龄前教育也能起到益智和兴趣开发作用。

AI对现代教育体系也会产生变革性影响。根据美国高等教育信息化协会发布的《2024年人工智能图景研究》,比起AI带来的潜在隐患,落后于时代是教育最大的担忧。

AI有消除教育不平等的潜力,让每个学生都获得世界一流的教育。过去的教育系统是以教师为核心,基于上课时间安排去塑造学生。AI教育或将转向以学生为核心,基于不同能力、个性化的学习来产生改变。2023年,全球最大的免费教育的非盈利组织可汗学院(Khan Academy)推出了基于GPT4的AI机器人Khanmigo,对学生能提供一对一私人导师服务,对老师也能成为超级助教,目前已有超过65000名用户。2024年4月17日,我国教育部也公布了首批18个“人工智能+高等教育”典型应用场景案例,包括北京航空航天大学、北京师范大学、哈尔滨工业大学等高校成为首批试点高校,在教育教学模式创新方面探索AI应用。

3.6 AI 具身智能体+软件:AI PC、AI 手机

PC、手机的芯片随着过去十年的发展已经达到相当高算力水准,与AI模型部署天然适配,是第一批可以快速落地的端侧运行AI的硬件载体。

AI PC和AI手机最大的优势在于,一方面可借助生成式AI进一步拓展能力上限,不仅响应更即时,其定制化程度也更贴近用户习惯;另一方面,内嵌AI可以实行本地化模型部署,确保了个人数据和隐私安全。

无论是芯片企业、电脑厂商还是手机企业都将“产品AI化布局”提上日程。英伟达和AMD分别推出了AI-Ready RTX笔记本、Ryzen AI架构。联想一口气推出AI PC ThinkPad X1 Carbon AI等十余款AI PC,华硕2024年推出Zenbook S16,戴尔推出XPS 14。华为HarmonyOS 4系统全面接入盘古大模型,苹果最新iPhone16也全系搭载AI大模型。

以AI PC为例,初步功能有:①辅助办公、会议纪要;②辅助创作绘画、文案生成;③个人知识库、知识问答、本地搜索。2024年Q2全球PC出货量升至6280万台,同比增长3.4%,结束了七个季度的同比下滑;其中AI PC出货量达到880万台,占总出货量的14%。

对比来看,由于PC端搭载芯片性能优于手机,AI PC渗透速度将快过AI手机。IDC预测,2024年全年AI PC的市占率或达到55%,2027年将达到85%;生成式AI智能手机2024将增长344%,占18%市场份额。

4 下半场,更要重视AI的价值对齐问题

AI进步最紧迫的挑战是尽可能地在不同情形和复杂环境中做出符合人类价值观的判断,即人机对齐问题(Alignment Problem)。

算法和人类学习的方式相似,但并不清楚人类对公平性、安全性、道德性的认知。所以特定领域需要人为筛选、标记数据、在监督学习中应对具体的问题。

第一类是算法搭建谬误:训练用的数据样本是准确的,但训练规则没有考虑到统计学偏差。例如,微软计算机专家Rich Caruana在上世纪90年代使用机器学习模型帮助肺炎患者就诊时,就曾错误地将哮喘病史归类为低风险因子,原因是机器学习的样本中哮喘患者死于肺炎的可能性很低。实际上有哮喘病史的肺炎患者有严重健康风险,但他们通常会受到重点护理,所以样本中的死亡率低,数据表现上哮喘病史和肺炎死亡的关联度也会降低。

第二类是数据来源偏见。例如,麻省大学汇集的公共人物图片库在用于机器学习时,被发现存在偏见问题:男性占比超过77%,白人占比超83%,一些少数族裔甚至没有样本,因此训练的模型就会生成性别和种族歧视内容。搭建团队随后解释称:数据全部来源于在线新闻中收集的图像,并无主观调整。该结果反应了公共新闻报道本身就存在偏见,数据背后的动机和目标并非纯粹理性。因此,当数据已尽可能的具有包容性时,AI的非监督训练会直接产生道德问题。

第三类是道德两难困境(Moral Dilemma)。比如,自动驾驶决策的担忧:算法如何在道路两难情景中去做决策?设想汽车前方突发事故,必须在短时间内紧急换道,但左侧是载有孕妇的车辆而右侧是悬崖,两种决策的后果都是致命的,此时算法该如何去权衡后果?并没有正确的答案。因为人类社会的道德框架并非完全一致,不同的价值观、文化、认知背景存在着道德差异,以用一种达成共识的行为准则来建设“AI的道德性”还难以具备客观条件。

为解决人机对齐问题进行尝试,AI前沿企业除了发布各自的AI伦理准则,也通过收集用户反馈进行算法改进。OpenAI提出过超级对齐要求准则(但随着业务重心转变和管理层变动已不是主要目标),微软通过可视化工具和解释性算法来揭示模型工作机制。各主权政府也相继出台文件监管,中国注重安全评估标准和生成内容标识,美国提出算法歧视保护和数据隐私要求,欧洲强调AI的自主性、预防伤害、公平性和可解释性。

本文源自:券商研报精选

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。