智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了
2024年12月28日,智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中,宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。
梅涛指出2024年是人工智能技术持续发展的一年,在这一年中有多个人工智能技术的标志性事件。
2024年人工智能技术发展的五个标志性事件
Sora的出现标志着视觉生成领域取得了重大突破;GPT-4o体现了大模型从单一语言模态向多模态(如图像和视频理解)的跨越。GPT-o1的推出让我们将关注点从大规模预训练转向了推理优化,进一步提升了大模型的逻辑推理能力。通过GPT-o1机器能够像人类一样进行反复思考、推敲,展现出更加接近人类的思维方式。
此外,借助于这些先进的大模型技术,我们还可以极大地促进具身智能的发展,使得机器人不仅能够执行任务,还能在复杂环境中做出灵活判断并采取行动,真正实现“思考”与“行动”相结合。最后,但同样重要的是AI正在成为推动科学发展的重要力量。例如,今年的诺贝尔物理学奖及化学奖均颁给了人工智能专家,这充分证明了“AI for Science”的巨大潜力及其对未来科技发展的重要意义。
人工智能的本质是建立连接
为什么现阶段能够出现所谓的“智能涌现”?今年的“大脑奖”获奖者们揭示了计算科学与神经科学融合的巨大潜力,这种跨学科的合作为人工智能的发展铺平了一条道路。
大模型的神经网络与人类大脑在运作机制和构造上展现出了高度的相似性。深度神经网络实际上是对人类大脑皮层认知过程的一种简化模拟。这表明,大模型可能与人类大脑的构造有着本质上的一致。人类认知的核心在于构建大脑神经元的“连接”,而人工智能的本质也是构建人工神经元之间的“连接”。
正是由于构造和机制的相似性,我们今天能够一起见证“智能涌现”。随着技术的进步,人工智能大模型有望展现出超乎想象的能力,不仅在模仿人类思维方面取得进展,还将在解决复杂问题和创新领域中发挥重要作用。
大模型通往AGI的两条路径
在当前工业界,通往通用人工智能(AGI)有两大主流技术路径。其一是以GPT为代表的通过next token prediction方式,将人类数千年来积累的庞大文本知识库进行高度浓缩,例如,GPT-4等万亿级参数规模的大语言模型。然而,随着数据资源的日益消耗,这一路径也面临着增长极限的挑战。
另一条路径则是以Sora为代表的扩散模型(diffusion model),该模型致力于将复杂的视觉信息及物理交互过程纳入学习范畴,旨在构建能够理解并模拟人类与真实世界互动的多模态模型。智象未来也是在这条曲线上参与全球竞争,拓展技术边界,探索更加全面和深入的物理世界的理解和生成能力。虽然两条路径各有侧重,但随着研究的深入和技术的融合,一个统一的大模型架构出现也很有可能。
直面Scaling Law的四点思考
假设Scaling Law一直有效的情况下, 5年后大模型研发资源预判:能源需求增加200倍、预训练费用增加250倍、模型计算量和算力规模增加10000倍、高质量数据增加至1000倍。那么作为一家创业公司,应该如何持续增长?
思考一:多模态大模型一定是通往AGI的必经之路
多模态大模型是通往AGI的路线,是从单一的文本模态过渡到多模态,多模态理解再到多模态生成,最后多模态生成和理解实现统一。这也是商业化落地最快的一条通路,更是各大厂商的必争之地。
思考二:大模型研发正在从预训练过渡到推理优化的阶段
人类有两种思考模式,一种是快思考、一种是慢思考。GPT-4o代表快思考,GPT-o1代表慢思考。在GPT-o1之前,大模型企业多投入在预训练上,o1之后我们把推理优化赋能到大模型上面,使得我们自己的大模型能力能够提升一个台阶。
思考三:AI仍在探寻产品的市场契合点
当前,人工智能技术仍处于快速发展的初级阶段。在迈向市场化应用的过程中,我们需要跨域两个鸿沟。一个鸿沟是,实现从强大模型到专业用户有效应用的跃迁。尽管现有的AI模型规模庞大、功能强大,但仍存在概率性的“幻觉”现象,即输出结果可能不完全符合实际情况。另一个鸿沟是,如何将服务于专业用户的能力普及至普通用户群体,降低大模型的使用门槛。梅涛指出,解决以上两个鸿沟的方案是,基础模型的研发与建设仍需大量投入,从而提升模型的准确性与可靠性,这是支撑大型AI企业持续发展的根基所在,并且通过不断产品与运营优化,提升用户体验,弥合AI产品的“最后一公里”问题,这样才能让每一位用户都能轻松享受到人工智能带来的便利。
思考四:高质量的版权数据资产,将成为人工智能企业核心竞争力之一
“高质量的版权数据资产,将成为人工智能企业核心竞争力之一。”这是梅涛分享的第四个思考,他进一步阐述至2028年,大模型训练将消耗掉人类历史中积累的大量数据。“面对未来可能出现的数据匮乏状况,我们应当提前布局,思考应对策略。”因此构建和积累高质量的版权数据资产显得尤为重要。这不仅关乎于企业的竞争力,更是推动人工智能技术持续发展的重要基石。因此,如何有效利用现有数据、探索新的数据来源以及数据使用创新方式,将是摆在所有人工智能企业面前思考的首要问题。
智象未来的业务支撑
梅涛表示,基于以上的思考,智象未来从2023年3月成立之初,就明确了“1+3+N”的商业化布局。即以1个大模型为基础,通过3条产品线形成市场触点,深度了解用户需求,满足使用场景,服务商业环境。
智象多模态大模型是我们企业发展的关键引擎,在模型能力达成后,就是我们的应用产品,这可以确保技术成果迅速转化为商业应用。今天我荣幸地宣布,智象未来已携手合作伙伴,共同构建了版权数据业务。自此,智象未来可以向用户提供拥有版权保护的应用数据。模型、数据、应用,这三者构成了我们通往通用人工智能的稳固三角支撑。
截至目前,智象多模态大模型已经拥有国内最全的多模态版权语料库,拥有数十万小时版权视频素材,上万个授权IP,涵盖超过70%华语影视数据,已形成上亿条AIGC二创素材,在影视、文旅、通信、营销、教育等场景得到广泛应用。在商业化方面,已累计服务了全球100多个国家和地区的1000多万用户和4万多家企业客户。目前智象未来已经在北京、上海、深圳、香港等地区设有常驻机构,并作为安徽省人工智能先导区的零号入驻企业落地合肥。
活动现场,智象未来与人民网、上海电影集团、彩讯科技、捷成华视网聚、安徽联通、中国移动咪咕音乐等12家生态伙伴企业代表签约,形成集技术研发、产业化应用、市场推广于一体的生态体系。
智象多模态大模型全面升级
本次发布的智象多模态生成大模型3.0带来了图像和视频生成能力的全面升级。具体包含了画面质量与相关性提升、镜头运动和画面运动更可控,以及多场景驱动的优化。同时,智象未来还推出了智象多模态理解大模型1.0版,通过对物体级别的画面建模以及事件级别的时空建模,实现了更精细、准确的图像与视频内容理解。
梅涛介绍说:大模型3.0版,相较于1.0与2.0版本,实现了显著的技术飞跃与创新突破,是全球首创的扩散自回归模型,这一架构巧妙地将自回归模型与扩散模型融为一体,不仅继承了DiT模型在图像生成上的优势,还通过结合自回归模型的方式,有效降低了模型规模与计算成本,实现了性能与效率的双重优化。
此外,3.0版在控制能力上也取得了关键进展,实现了对镜头运动和局部运动的精准操控,进一步提升了生成内容的画质与动态表现力。并且,引入的混合成像模型MOE架构,确保了在保持高生成质量的同时,显著加快了推理速度,为实时或近实时的应用提供了可能。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。