首页 > AI资讯 > 最新资讯 > 金融大模型应用评测报告出炉,安全对齐表现优异,专业认知、多模态处理能力亟待提升

金融大模型应用评测报告出炉,安全对齐表现优异,专业认知、多模态处理能力亟待提升

新火种    2024-12-15

2024年12月13日,上海人工智能实验室联合上海财经大学、上海库帕思科技有限公司发布《金融大模型应用评测报告(2024)》(以下简称《报告》)。 评测围绕金融行业的核心业务需求及大模型在金融场景中的适配性,结合银行、证券、保险、基金等重点应用场景,对14家机构的20个主流大模型的金融专业能力进行了评测。

结果显示,参评模型在金融安全与价值对齐方面表现优异,体现出行业对关键合规性和伦理问题普遍高度重视;而在模型基础能力、金融专业认知,特别是多模态处理能力等方面,参评模型存在一定短板,尤其是在复杂金融业务场景中的表现亟待提升。按综合总分排名,Anthropic、阶跃星辰/财跃星辰和阿里巴巴的参评模型位列前三。

未来,金融领域评测报告将以每年一至两次的频率发布,旨在为行业提供客观评测结果与方向指引参考,助力金融科技在智能化、专业化、精细化方向上进一步突破与发展。

image

image

访问链接或扫描二维码可下载摘要版《报告》:

https://img.shlab.org.cn/pjlab/files/2024/12/638695925361130000.pdf

image

报告摘要

•参评模型在金融安全与价值观对齐方面表现优异,体现出行业对关键合规性和伦理问题高度重视。

•在模型基础能力、金融专业认知能力,特别是多模态处理能力等方面,参评模型存在一定短板,尤其是在复杂金融业务场景中的表现亟待提升。

•在金融业务辅助拓展能力维度,模型在智能投资顾问方面的整体表现尤为亮眼,这既反映了大模型的应用潜力,也揭示了评测数据集在构建业务方向的丰富性和复杂程度方面仍有较大提升空间。

•随着大模型在金融业务场景应用的深入和扩展,安全问题或以更隐蔽和多变的形式显现。因此,持续迭代更新安全评测方法,强化相关数据集建设将是未来的重点任务。

•高质量金融语料数据集的可持续供给对提升模型能力具有决定性意义。特别是在多模态金融数据集方面,当前的供给不足已成为业界共同面临的瓶颈。

为促进大模型的产业应用与生态发展,上海AI实验室构建了大模型开源开放评测体系司南(OpenCompass),客观中立地为大模型技术创新提供坚实的技术支撑;同时积极与业界共建垂类评测,通过构建评测基准-评测-应用闭环,发挥评测数据价值,为产业应用提供方向牵引与安全保障。

本次评测的开展,旨在切实提升金融服务的智能化水平,降低企业数字化转型成本,并积极探索金融垂直领域大模型应用的新理念、新机制和新手段,进一步推动金融科技创新应用的发展。

评测以司南平台为核心工具,围绕金融行业的核心业务需求及大模型在金融场景中的适配性,结合银行、证券、保险、基金等重点应用场景,形成“模型基础能力”“金融安全与价值对齐能力”“金融风险控制能力”“金融专业认知能力”“金融业务辅助拓展能力” 等五大测评维度。基于《金融大模型应用评测指南》(T/SAIAS 019—2024)团体标准,评测采用了《库帕思金融大模型评测数据集(2024版)》。评测对象包括14家机构的20个主流大模型,含闭源和开源模型,分别通过购买API 接口和下载部署的方式进行测试。综合评估分数采用线性加权模型,对每项指标进行标准化处理后加权平均计算。

image

《报告》显示,参评模型综合平均得分为71.9。在5大评测维度中,参评模型在金融安全与价值对齐能力维度表现最为出色,平均得分达92.8。在模型基础能力和金融专业认知能力(含多模态任务)维度得分较低,分别为59.8和52.0,且各模型表现差异较大。

综合总分排名前三的模型依次为:

1.Anthropic Claude-3.5-Sonnet-20240620, 79.8分

2.阶跃星辰/财跃星辰 Step-2-16k/Finstep,79.7分

3.阿里巴巴 Qwen2.5-72b-Instruct/Qwen2-VL-72B,77.6分

本次测评一定程度上展示了大模型在金融应用方向的能力现状,各模型整体表现基本满足当下场景需求,其中金融安全与价值对齐表现优异,但仍存在较大提升空间,如金融专业认知和多模态处理能力。本次评测是依据《金融大模型应用评测指南》(T/SAIAS 019—2024)团体标准,使用《库帕思金融大模型评测数据集(2024版)》,通过司南大模型开源开放评测体系对部分通用大模型和金融垂类大模型的一次抽样测试。评测并未涵盖所有的金融场景和模型,评测数据集的部分样例已在OpenDataLab社区公开。

本次评测是相关工作的第一步,通过选取部分模型进行评估来对方法进行验证。未来,还将每年开展至少1-2次评测,并逐步扩大测试范围,开放和共建评测工具、评测数据集和评测方法体系。同时,将与金融行业各方协同,进一步强化以金融业务为中心的模型评测体系建设,加强高质量金融语料建设,结合相关标准;加强对大模型应用实践的引导与规范,并与实践紧密结合,以更好推动大模型技术在金融领域的落地应用。

image

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。