2024WAIC热议大模型助力产业新趋势,可信应用成焦点
作者:赖文昕
编辑:陈彩娴
2024 年已经过半,大模型技术的角逐也逐渐从上半场的「百模大战」转向下半场聚焦落地「千行百业」的产业应用。
过去短短 2 个月以来,全球 AI 界接连开展了数十场发布会,从海外的英伟达、OpenAI、谷歌、苹果,到国内的阿里巴巴、字节跳动、腾讯等一众企业纷纷出新,还不约而同地选择将大模型技术落地到产业应用之中。
AI 企业们似乎都在向世界宣告:科幻电影中的 AGI 将成现实。
激动之余,业内也发出了一系列冷静的提问:大模型的杀手级应用出现了吗?大模型将如何重塑「千行百业」?什么难点阻碍了大模型落地?又将如何逐一解决呢?
7月5日,2024 世界人工智能大会(WAIC)中的「可信大模型助力产业创新发展论坛」在上海世博中心举行。
论坛由新一代人工智能产业技术创新战略联盟主办、蚂蚁集团承办、中国网络空间安全协会协办,围绕大模型产业应用的机遇与挑战展开,聚焦如何构建可信的大模型,以满足专业领域的高标准要求,并邀请了蚂蚁、华为、智谱、百川、生数科技等一线 AI 企业代表共同讨论大模型应用爆发的入口与未来。
「大模型正在改变科研与产业发展范式,目前正在成为通向 AGI 的最可能路线,全球共计 170 多个大模型,国内呈现百模千态的竞争局面。」鹏城实验室主任、中国工程院院士高文在会上表示,「撬动 X 万亿级机会已经到了。」
在气温高达 40 度的上海,一场关于可信大模型应用落地的热烈讨论就此展开。
可信大模型落地应用,面临哪些问题?
可信人工智能是一个十分广泛的概念,但用户对可信 AI 的期望集中在四个核心特征上——专业性、可控性、真实性与安全性。
具体而言,第一,AI 在场景中的应用须适应从非专业到专业场景的需求;第二,鉴于 Transformer 注意力机制作为概率输出模型,天生具有不可控的机理,AI 须具备可预测和稳定的性能;第三,面对大模型可能产生的信息幻觉,确保内容的准确性和真实性是一大挑战;最后,必须包括内容安全、数据保护和网络安全,才能满足用户对 AI 应用的整体安全需求。
那么,该如何确保大模型在应用落地过程中的安全和可信度呢?
「大模型落地的最后一公里,需要一个系统化的方法论来保障大模型应用侧落地过程中的可信。」中国信息通信研究院人工智能研究所所长魏凯在论坛上强调。
首先,必须从数据源头着手,确保训练和微调数据的质量,因为数据的质量直接影响模型的输出和可信度。对于「千行百业」的用户而言,预训练并非最大痛点,微调数据的质量管控和数据治理至关重要,却也是目前相对薄弱的环节,因此,在数据集供给上要完善面向大模型的数据治理与数据工程。
其次,模型的专业增强是重点。为了满足越来越高的专业性要求,在知识工程、专业知识注入和价值对齐上都需要保障模型输出内容的专业性。通过将知识计算技术与模型的概率推理相结合,可以增强模型对常识和可控性的能力。
第三,内容生成的可控性需格外关注。尽管存在多种检索生成增强的技术方案,但大模型往往存在自我认知的局限性,因此清晰界定其能力边界十分关键。为了使基座模型在生产场景中发挥作用,通常需要将大模型作为一个智能体的核心中枢,将其与具体的外挂知识库工具结合、封装成智能体,赋予其规划、调用工具与执行的能力,并应用在特定的行业场景中。
第四,持续迭代对于大模型的适应性和性能至关重要。大模型需要像实习生一样,通过不断的监测、调优和提升来适应信息系统服务的需求,即构建出「反馈-迭代-优化」的循环体系,推动大模型专业应用在金融、医疗、民生等领域不断进阶。
最后,评测机制是确保大模型可信度的关键。由于大模型的行为和能力往往难以直观解释,因此需要通过评测来掌握其全生命周期的表现,不仅在研发环节,更重要的是在实际场景中对大模型的基本能力进行评估,即从模块化、系统级、端到端多层面构建面向产业应用的大模型测评体系。
「人工智能与人类一样,是一个复杂系统,会产生多种可能性。我们要听其言、观其行,用实践去检验是否与现实相符,100%的可信是不可能的,但我们可以根据它的输出、交互来构建一个如科学技术、知识、社会规则、法律等共识,在共识中形成一定的可信。」
智源研究院理事长、新一代人工智能产业技术创新战略联盟秘书长黄铁军提出了 AGI 分级的具体建议,他认为,目前 AI 仍处于 L0 级的生成式人工智能(GAI)阶段,认知低于人类,只能替代部分人类智能,存在善用、误用、滥用与恶用的可能。
不过,L1 认知超人的阶段并不遥远,这意味着彼时人类可以躺平、理性信任 AI。黄铁军推测,未来3年,大模型将扩展到视觉、听觉、具身、行动等通用智能,规模变大,尺寸变小,成为具身智能的「大脑」。
解法:垂域大模型、多模态技术与 AI 智能体
论坛中,关于可信大模型如何在应用具体落地,呈现出了多种解法,大家不约而同地开展了对垂域大模型、多模态技术与 AI 智能体的探索。
在专业领域,用户通常追求大模型的深度而非广度,即垂直领域大模型。这类模型专注于特定行业的需求,通过使用高质量的行业语料库进行训练,以实现对行业知识的深入理解和应用。
浙江大学人工智能研究所所长、求是特聘教授、国家杰青获得者吴飞分享了智海系列垂直领域大模型与人工智能体的最新成果。
例如,浙江大学联合阿里巴巴达摩院与华院计算共同研制的司法领域大模型「智海-录问」,它在辅助庭审案件处理中表现出色,处理案件超过1.5万件,当庭宣判率达到90%以上,裁判文书的完整度更是达到了95%以上,显著提升了审判效率近40%。
在教育领域,「智海-三乐」AI 教育垂直大模型,致力于超越传统教材的局限,鼓励教师进行创造性教学,同时满足学生个性化学习的需求。目前已在高等教育司云服务平台上开放,供全国高校使用该教材的学生学习。
此外,「智海-金磐」大模型专注于零售金融领域,整合了金融书籍、学术论文、金融知识图谱和金融对话文本等多种数据源,以实现对金融知识的深度学习和应用;「跨媒体大模型」还涉及诗词短视频合成和化合物合成的不同领域,通过结合不同形式的数据进一步拓展了 AI 的边界。
「如果每个学科都能拥有自己的专业大模型,并将这些模型相互连接,将形成一个强大的跨学科知识网络。」吴飞说道,「通过这些实践,我们可以看到垂直领域大模型在提升专业效率、促进教育创新和推动跨学科融合方面的巨大潜力。」
除了「做小做专」的垂域大模型,被视为重要突破点的多模态技术同样有新动态。
蚂蚁集团副总裁徐鹏介绍了蚂蚁百灵大模型的最新研发成果,升级后的「原生多模态模型」实现了规模与模态的双重突破。
在规模上,团队积累了万亿级别的文本语料与百亿级图文、视频、音频数据,创新「跨模动态对齐」技术,融合大语言模型,实现千亿参数视觉语言模型。
在模态上,团队建设模态动态拓展算法架构,由桥接向原生跨越,支持音、视、图、文等模态,达到业界一流水平,无论是上下文生成还是上下文理解,都能展现出亮眼的效果。比如,在输入狗吠声后,蚂蚁百灵大模型能框出并识别图片中的宠物狗。
基于百灵多模态大模型在图文对话、视频理解、图像视频生产及语音理解生成的能力,一批能看、能听、能说的原生多模态应用就此诞生,解锁了智能助理、搜索推荐、互动娱乐、创意生成、数字人与审核认证等多种场景。
两个月前,搭载 GPT-4o 的 ChatGPT 展现了惊人的多模态能力。在论坛中,百灵多模态大模型同样展示出与之媲美的水平。
例如,打开自拍镜头后询问服装搭配建议,百灵多模态大模型能结合具体场合与天气提示着装;使用后置镜头,百灵能语音告知用户看哪些药能吃、怎么吃;对着一堆食材,百灵还能教用户做饭,并根据用户喜好变换菜单。
值得一提的是,在百灵多模态大模型赋能下,支付宝智能助理能让 AI 像「扫码支付」一样触手可及,为用户提供出行、健康、政务、金融等领域的超 8000 项数字生活服务。
同时,支付宝智能助理也将成为专业智能体生态的平台入口。用户通过与智能助理的对话,就能一键连接生活、金融、医疗等垂直行业的 AI 智能体,获得更专业丰富的服务,拥有专属的智能生活管家、金融管家与医疗健康管家。
蚂蚁集团聚焦推动大模型落地严谨产业
那么,在「千行百业」之中,哪些行业和场景将会最早被大模型重塑?又会以何种形式出现呢?
在 CSDN 创始人、董事长蒋涛的主持下,一众大模型从业者们给出了自己的思考。
百川智能副总裁邓江表示,国内基座模型能力在过去一年显著提升,已接近世界先进水平,且迭代速度快,预示着今年将有更多应用场景落地,尤其在医疗、金融和法律等知识密集型行业。
「大模型目前的水平相当于二本或一本,不是取代谁,而是作为工具和助手存在,比如让智能体辅助医生进行基础病的问诊和排查。」
智谱 AI 董事长刘德兵认为,智能体将会是未来的爆款应用,可以连接人与大模型,解决人的问题。同时,大模型应用的核心在于与行业用户的深度合作,利用行业特定场景和数据进行深层次开发,应用范围广泛,不仅限于对话和多模态语言,也包括处理时空和时序数据。
「目前我们的平台已有超过40万智能体被使用,许多用户基于自己的需求在其中创建智能体,且一些智能体在遵循用户设定的规则、工具和知识库方面表现卓越。」
生数科技联合创始人兼 CEO 唐家渝则指出,当前的底层技术还处于相对比较前期的状态。生数科技联合清华大学在4月对标 Sora,发布了中国首个长时长、高一致性、高动态性视频大模型「Vidu」,其时长、声音等技术在6月也有了显著提升。
但是在落地过程中,唐家渝发现,无论是与影视机构、产业,还是同C端创作者的合作,总体在生成成功率方面仍存在进步空间。
唐家渝提出,未来可能没有超级 APP,而是更多专注于特定应用的智能体,这将是大模型时代的特点。他强调了结合现有场景进行 AI 落地和能力打磨的重要性,指出无论是 C 端还是 B 端,都需要进行深入的垂直化和领域化工作。
「当体验得到极大提升时,有潜力催生爆款应用。以创作领域为例,AI 可以激发人们未被充分利用的想象力和创造力,就像摄影从胶片、数码到手机的发展,拍照变得愈发普及,AI 也能在 C 端应用中带来类似的爆发性增长。」
华为公司人工智能战略与产业发展副总裁秦尧则强调了数据的重要性,包括数据的可获取性、版权问题、定价问题,以及数据的高效质量和对大模型训练的影响。
「在数据较易获取的行业,大模型的应用更有可能取得突破。但数据质量问题尤其重要,有些数据虽能被大量抓取,使用后却可能导致大模型训练效果变差。」
蚂蚁集团副总裁徐鹏认为,B端与C端的应用需求爆发紧密相关,大模型技术可以帮助医疗、教育、金融等领域的专业人士提高服务效率,满足更多人的高质量服务需求。
「其实有很多人需要得到更好的服务,但苦于得不到资源,如果大模型能帮助医生、理财师、教师等创业者,将一个人的力量放大至十倍、百倍,爆发便指日可待了。」
在一众知识密集行业中,正加速拥抱数智化的医疗行业显然是最受关切的领域之一。
在论坛的最后,蚂蚁集团发布了支付宝多模态医疗大模型,并启动了合作伙伴 AI 共建计划,以推动大模型落地严谨产业。
在百灵多模态大模型的赋能下,支付宝医疗大模型实现千亿级别参数的视觉语言识别,报告、药物等识别准确率高达 90%,中英文医疗水平测试超越 GPT-4,在 PromptCBLUE 中实现 A 榜第一,B榜第二。
另外,百灵医疗可信一体机的算力支持实现国产化的训推一体,交付周期降低90%;同时使用医疗可信云进行密态计算,使数据可用不可见,保障患者的隐私安全。
在此基础上,蚂蚁还推出了全国首个数字健康人、浙江卫健委「安诊儿」,全国首个医保经办机器人、杭州医保局「医保小智」,上海首个AI数字陪诊师、上海市一「公济小壹」,以及全国首个生成式电子病历、上海市一眼科 AI 电子病历。
在多模态能力方面,多模态医疗大模型在报告类型和关键信息抽取(异常指标、报告诊断)的准确率达到 95%,药品类型识别和用药建议识别准确率达 90%,毛发诊疗中脱发等级准确率达到 90%,治疗方案VQA准确率达 85%。
写在最后
从 2023 年 11 月份完成备案起,蚂蚁百灵大模型已经度过了数次迭代升级,万卡异构集群、千亿规模参数和万亿级语料成为了亮眼的「标配」。
在 AI 技术与安全重要性的长久辩论中,蚂蚁集团决心要做「两手都要抓,两手都要硬」的能手。
若以安全性与有用性作为X、Y轴,采用多源反馈强化学习的百灵大模型显然正朝着第一象限前进:基于完善 RLHF 框架提升百灵大模型的安全可信,同时基于 DPO 支持下游场景快速微调优化。
而在不久前的蚂蚁技术日现场,蚂蚁集团 CTO 何征宇提出,目前 AI 大模型仍处在「钻木取火」阶段,未来走向规模化应用,仍需要攻坚可靠性、经济性、易用性三大挑战。
以蚂蚁为代表的企业开始纷纷推动大模型落地严谨产业,爆款产业应用的未来也许就在不远的前方。
打造真实准确的可信大模型将切实助力赋能千行百业,激发创新动力,拉动发展引擎。大模型产业发展需要产学研用各界共同参与,共同推动。未来,新一代人工智能产业技术创新战略联盟将继续发挥社会团体协调资源的重要作用,为行业上下游打造交流平台,更好推动大模型产业发展。
本文作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业发展趋势,欢迎添加交流,互通有无。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。