吕仲涛:高质量数据是企业大模型应用成功的基石
经济观察网 记者 万敏 2023年12月17日,工商银行首席技术官吕仲涛在第二届明珠湾金融论坛上发布了《明珠湾智能金融发展报告(2022)应用篇》(以下简称“应用篇”),并接受了经济观察网记者的提问。
吕仲涛介绍,金融行业智能应用2022年以来主要呈现了三个特征:应用规模稳步增长、应用质效不断提升、应用成效显著增强。“应用篇”入选典型案例共33个,按照银行、保险、证券三个主要的行业板块组织,每个板块大致细分为产品创新、客服营销、运营管理、风控合规四个应用大类。其中,银行业对智能新技术先行先试,持续提升业务水平,在智慧乡村、智能录审、数智交易等各类场景推出一大批典型应用。
吕仲涛表示:“大型银行的数字化转型和智能化应用发展较早,往往基于全技术栈面向全业务场景打造企业级平台化能力,水平在同业中较为领先。中小银行受制于资本、规模、人才等因素,其智能应用水平较大型机构总体上还有一定的差距,适合根据自己的战略定位和特色业务领域,通过专项技术产品引进和持续打磨的方式赋能业务。”
对于记者提出的AI大模型需要大量的业务数据反哺来训练学习,大型金融机构怎样做好数据治理,安全合规地发展金融大模型的问题,吕仲涛表示:“高质量的数据是企业大模型应用成功的基石。但是训练所需的数量巨大且多样性要求高,对大模型所需的数据采、洗、管、用的数据工程平台能力提出新挑战。”
吕仲涛介绍,工商银行已在同业率先完成千亿金融大模型构建和应用。在这过程中,工商银行依托企业级数据中台,已从金融数据集的建设出发,围绕数据采集、清洗、标注、管理、使用等全生命周期管理,初步形成一整套大模型数据工程平台能力并积累TB(万亿字节)级金融数据集并不断完善。
一是夯实标准化、流水线的数据采集之“基”,打破数据孤岛。吕仲涛表示,对内,通过建立企业级数据中台方式,集中手段打通数据孤岛,将不同业务线、不同部门、不同系统的分散、冗杂的数据(包括结构化数据和文档、语音、图像等非结构化数据)整合在一起,形成统一集中纳管的数据资产。对外,通过开源加联创、专项采购等方式,持续丰富通用的互联网新闻、书籍等外部数据。内外结合,建立数据的全面采集机制,为金融大模型的构建引来源头活水。
二是持续提升数据处理、知识沉淀、数据治理之“器”,降低数据处理门槛。吕仲涛表示介绍,工商银行已围绕大模型初步建立数据工程和知识工程的体系化工具,具备对相关数据资产进行整理、清洗、去重、标注、治理的数据工程化能力,有效消除数据冗余、清除数据偏见,确保数据的质量和准确性,并通过工具支撑,持续扩充金融专属数据集,以便完成企业专有模型训练。
三是加强训练数据安全管理之“术”,守牢大模型数据安全质量。通过构建专项机制和专项团队,重点加强大模型数据安全管控,在数据安全管控过程中,优先保障社会主义核心价值观、工行企业文化及金融从业要求,通过敏感词检测、非法数据过滤、安全测评、人工审核等处理安全手段,提升数据质量和安全可控能力。同时,工商银行已随大模型应用深入及实践总结,逐步在推进体系化的安全测评、管控办法和技术框架等能力建设。
四是建立大模型应用的数据运营之“道”,实现大模型的数据闭环。吕仲涛透露,一方面在业务系统中,以智能场景为单位,大模型迭代为目标,通过规范运营埋点数据、埋点数据全入湖等方式,确保大模型应用数据闭环,进而推动大模型持续迭代和优化。另一方面,加强金融大模型运营数据监控分析,按照不同业务领域预置运营指标模板,实现技术指标、业务指标的统一监控,并基于BI(Business Intelligence商务智能)能力,生成各类运营评价报告,给数据科学家提供大模型优化指导,保障大模型数据驱动的持续保鲜。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。