智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下|MEET2025
大模型的出现,成了AI第三次浪潮的新拐点。
正值“Scaling Law是否撞墙”热议之际,北京智源人工智能研究院院长王仲远表示:
看过去七、八十年,每一次新的科技浪潮背后都有一些本质规律,即随着模型参数、训练数据及计算能力提升,模型效果也会有巨大提升。
也就是说,如果拉长时间维度,其实Scaling Law在人工智能发展领域中一直起着作用。
此外,在本次量子位MEET 2025智能未来大会上,他还介绍了智源在过去6年里,建立了一支最早在国内从事大模型研发的顶尖团队,并且从2020年10月开始,就成立了技术攻关团队来持续推动大模型技术研发探索。
至于大模型未来的发展方向,在他看来,除了文本数据,世界上还存在大量的图像、音频、视频等多模态数据。如何激发这些数据中的智能,是未来大模型研究的重要方向。
原生统一的多模态大模型才能更好支撑产业落地应用,实现人工智能对世界的感知、理解和推理。
为了完整体现王仲远的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。
核心观点梳理
当下我们正处在人工智能七八十年历程的第三次浪潮新拐点,尤其是出现了大模型;
可以预期明年会有越来越多基于大模型的各种场景应用的诞生;
Scaling Law在大语言模型上开始放缓的一个非常重要的原因是文本数据消耗殆尽;
多模态数据如何进一步激发大模型的智能,是一个非常重要的研究方向;
原生统一的多模态大模型才能更好支撑产业落地应用,实现人工智能对世界的感知、理解、推理;
……
以下为王仲远演讲全文:
大模型:AI第三次浪潮的新拐点
大家上午好,我是来自北京智源人工智能研究院的王仲远。
当下我们正处在人工智能七八十年历程的第三次浪潮新拐点,尤其是出现了大模型。
以2023年大模型出现前后做一个分界线,可以认为过去属于弱人工智能,也就是针对特定的场景,特定的任务,收集特定的数据,训练一个模型,然后在特定场景解决问题。
像AlphaGO,能够战胜世界围棋冠军,但是无法直接用来解决医疗问题,解决无人驾驶问题等。
在大模型之后,弱人工智能开始向通用人工智能方向转变,从专精尖的模型到通用模型,开启了一个新的时代。由于能力还在不断提升的过程中,所以我们还会觉得大模型依然不够好用。
但是可以看到,过去七八十年每一次新的浪潮背后都有的本质规律:模型参数、训练数据以及计算能力的提升,会带来模型效果的巨大提升,这就是反复讨论的Scaling Law。
最近关于Scaling Law是否失效,有很多争论。
如果时间维度足够长,会发现Scaling Law一直都在整个人工智能的发展历程中不断发挥作用。至于最近谈到的Scaling Law已经失效,一个很大原因是数据、算力,这些支撑Scaling Law发展的要素出现瓶颈。
智源研究院:国内最早、国际同步布局大模型研发
通用人工智能时代的到来,对各行各业都有非常多的影响。
今年以来,大模型开始加速落地。
如果说过去两年,中国依然在不断地追基础模型的能力,那么现阶段国产模型的能力已经接近GPT4了,足以支撑更多的应用落地,因此可以预期在明年会有越来越多基于大模型的各种场景应用的诞生。
智源研究院是第三次浪潮中在北京成立的一家非营利性质的新型研发机构。
在过去六年时间里建立起了一支非常顶尖的科研团队,科研人员60%有博士学位,30%有海外教育研究背景和经历。正是因为有这样一支年轻有活力、有国际视野的团队,智源研究院在国内最早开始了大模型的研发。
而且智源研究院在2020年10月就成立了一支百余人的技术攻关团队,专做大模型研发。并在2021年分别发布了悟道1.0、悟道2.0,2023年发布悟道3.0系列。
ChatGPT发布之后,产业界开始关注大模型,智源实际对国内大模型创业公司做了非常大的贡献,包括孵化了一些公司,转化了一些技术。就在今年智源大会上,头部大模型公司对智源在过去这些年的贡献也给予了充分肯定。
面向未来,大模型还远没有到发展的尽头。百模大战,很大程度上依然聚焦于大语言模型,Scaling Law在大语言模型上开始放缓的一个非常重要的原因是文本数据消耗殆尽。
ChatGPT后的o1,想要通过Post-Training(后训练)的方式进一步激发大语言模型的智能。
面向未来看更多的技术发展趋势,可以看到除了文本数据,还存在着大量的图像、音频、视频等多模态数据,这些数据如何进一步激发大模型的智能,是一个非常重要的研究方向。
我们知道现阶段有多模态理解的模型,也有多模态生成的模型。像Sora是Diffusion-Transformer的技术路线,多模态理解的模型基本上还是以大语言模型为核心,把不同模态的视觉信号等往语言模型上做映射。
我们认为原生统一的多模态大模型才能更好支撑产业落地应用,实现人工智能对世界的感知、理解、推理。如果与真实物理世界的硬件结合就是具身智能,与微观世界的生命科学结合就是AI for Science,这一切最终都推动整个AGI时代的到来。
过程中,智源研究院会针对一些产业界的共性问题,进行科研层面的解决,以始终引领未来大模型的发展,支撑产业发展方向。
大模型一直有一个非常大的痛点就是幻觉。
去年,我们发布的通用向量模型被广泛用在检索增强中,在过去的两年里,BGE已经成为全球知名开源平台Hugging face上120多万个开源AI模型中下载量最高的模型(超过20%)。
不仅在社区里广受欢迎,而且主流的云厂商平台集成了BGE模型。因为我们完全开源,也允许商用。这就是智源研究院对产业界的支撑。
前沿探索中,智源一直在开展视觉和多模态方向的研究。
当前阶段,不同模态的模型依然采用不同的技术架构,它能够在局部上展现出非常好的效果,但从长期的技术发展或最终落地来讲,还是会面临很多挑战。
所以我们一直都在挑战一个终极形态的技术路线——将所有的模态,包括理解和生成统一。
今年10月正式发布的Emu3原生多模态世界模型,我们将视觉信号和所有文本变成了token,通过类似大语言模型的训练架构训练出了一个统一的原生多模态大模型。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。