ChatGPT等能为保险行业所用吗?AI大模型评测报告出炉
记者10月10日从元保获悉,元保联合国内保险科技研究机构分子实验室共同发布《人工智能大模型保险行业应用评测报告》。《报告》认为,包括ChatGPT、百度文心一言等在内的10个主流大模型在医疗知识、保险常识、保险法律知识领域表现普遍较好,不同大模型体现出了不同特点。据悉,元保为元保保险经纪(北京)有限公司运营的互联网保险中介平台,于2020年正式上线运营。
专家认为,《报告》的发布一定程度上消除了保险大模型市场的信息不对称,对于保险机构选择大模型厂商、深度应用大模型具有指导意义。
图为《报告》评测框架。图片来源:《人工智能大模型保险行业应用评测报告》
《报告》结果显示,10个主流大模型(ChatGPT3.5、ChatGPT4、Claude-1、Claude-2、清华智谱ChatGLM130B、百度文心一言、阿里通义千问、科大讯飞星火、360智脑、昆仑万维天工)在医疗知识、保险常识、保险法律知识领域表现普遍较好,在智能核保、智能理赔、话术优化上表现不尽如人意,在营销服务应用能力上表现参差不齐。
具体而言,国内头部大模型在回答专业领域的基础知识问询时,对国内情况更加了解,回答的表现也比国外大模型更加出色。文心一言与清华智谱在保险常识、法律知识问答上均进入前两名,得分强于GPT-4。在医疗知识回答上,文心一言亦在各大模型中最优,科大讯飞也同样获得较高得分,表现均强于GPT-4。
《报告》称,头部大模型在专业知识问答上已有较强应用能力,可直接使用程度很高。如在回答“社保与商业保险的区别”时,文心一言可从性质、建立基础、管理体制、对象、保障范围、资金来源、待遇给付、时间性、法律基础等9个层面给出准确答案,内容较全面,可较好消除提问者心中困惑。清华智谱也从保障对象与范围、性质与目的、保费承担者、保障程度与灵活性、管理机构五大维度给出了答案,同样有较强的应用价值。
《报告》认为,目前的大模型非常适合作为智能机器人用以服务客户,回答客户关于保险、医疗等方面问询,同时也可以赋能保险代理人,成为保险代理人的展业工具之一,提升代理人服务客户的能力。因此在代理人渠道仍处于攻坚阶段的当下,大模型对于提升代理人平均产能、降低保险机构服务客户成本、促进保单成交,或有一定帮助。
同时,《报告》总结出在此次评测中不同的大模型体现出的不同特点,具体来看:文心一言在国内大模型中体现出了较强的综合能力,特别是中文语料充足,其训练出的大模型在专业知识的提供上有很强实力,未来还需要在多模态理解、推理能力上继续强化。
通义千问在专业知识问答上不算突出,不过在营销话术、智能核保、实时质检上有相对较好的表现,语言表达流畅、自然、清晰、简单,具备合理的逻辑思维能力,推理和判断能力也不错。
清华智谱的GLM-130B最大的解答优势在于很多问题引入了生动的例子加以说明,这对于提问者而言,无疑是个亮点。
事实上,去年底以来,以ChatGPT为代表的AI大模型横空出世,大幅提升了AI尤其是自然语言处理技术解决实际问题的能力,在全球范围内引起极大关注。各个行业都在尝试探索大模型应用落地的路径,这其中也包括保险行业。
清华大学金融科技研究院副院长、中国保险与养老金研究中心主任魏晨阳表示:“对大模型的评测工作,在全球范围都是一个意义重大的事情。结合金融领域一个重要板块(保险)的大模型评测,其实更具有特殊的意义。包括AI在内的科技赋能,核心在于结合具体应用场景时,模型是否在实操层面、核心业务的前沿,真正有实用价值。”
(文章来源:中国证券报·中证网)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。