百川智能发布金融大模型声称准确率超GPT-4o
12月23日,百川智能发布了全新的全链路领域增强金融大模型Baichuan4-Finance。
百川智能在官网上表示,Baichuan4-Finance在多个金融评测体系中表现优异,在中国人民大学财政金融学院发布的评测体系FLAME以及国内开源金融评测基准FinancelQ上,Baichuan4-Finance的表现均领先于GPT-4o。
在主要面向模型专业金融能力的评测FLAME-Cer中,Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率达到93.62%,超出了GPT-4o近20%。
而在侧重模型的场景应用能力的FLAME-Sce 评测中,Baichuan4-Finance一级核心金融业务场景的整体可用率达84.15%,金融数据计算、金融知识理论等场景的可用率超过90%,同样领先于GPT-4o。
此次百川智能发布的Baichuan4-Finance可以帮助金融从业者处理文档审核、客户咨询、产品营销等大量日常工作,还能依托深厚的金融专业知识和法律法规理解能力,为机构提供精准的风险识别和合规保障。
可以看出,借助此次发布的金融大模型,百川智能有意在金融领域开发更多的To B端客户。
大模型行业发力“应用落地”
从今年下半年以来,市场上频繁有传言称,被称为“AI六小虎”的六家中国大模型独角兽中,已经有两家企业停止预训练大模型,缩减了预训练算法团队人数,并将业务重心转向AI应用。
“AI六小虎”是市场对智谱AI、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰六家AI领域初创公司的称呼,这些企业因其在大模型技术领域的创新和影响力而获得此称号,并在融资、估值、中标项目等方面表现出色。但随着市场竞争加剧和行业环境的变化,这些初创企业面临着不同的挑战和转型压力。
预训练是大模型的基础阶段,赋予模型海量而通用的知识,是决定模型性能的关键步骤。在过去,许多大模型企业都选择将预训练作为其核心竞争力的体现。但这需要大量的数据和算力支持,每次迭代可能耗资数百万至数亿美元,对资源有限的初创公司来说是一个巨大的负担。
以Open AI为例,其GPT-3和GPT-4的训练成本分别高达1200万美元和7800万美元。而马斯克曾估算,ChatGPT5.0训练可能需要3万至5万张H100,仅芯片成本就超过7亿美元,约等于一家独角兽企业的一大半市值。
在资金和算力紧缺的背景下,市场有传言称部分AI企业开始选择放弃预训练,转而专注于实际应用场景的开发,以减少高昂的算力和数据投入。
但对于具体是谁放弃了预训练,传闻中的企业均对此进行了否认。
比如在今年10月,零一万物的创始人李开复在朋友圈辟谣,称零一万物一直在做预训练,并即将推出新的预训练模型。百川智能也否认了停止预训练的说法,称公司预训练团队稳定,预训练工作正在稳步推进,并不存在放弃预训练一说。
而在本月初,智谱AI CEO张鹏也在一场活动中明确表示“我们肯定一直在做预训练”,并称公司每四到六个月就会迭代一版新模型。
尽管相关企业都对“放弃预训练”的传言进行了否认,不过在市场环境的压力下,寻求更高效的商业模式和市场需求导向的发展路径已经成了许多AI领域初创公司的重要任务。
就在今年的10月份,零一万物推出了针对零售和电商场景的ToB产品,发布了面向电商直播、办公会议等场景的数字人解决方案。而百川智能则在医疗领域取得了进展,推出了AI健康顾问,并与国家儿童医学中心和北京儿童医院,共同研发出了儿童健康大模型。而百川智能推出的通用医疗增强大模型,则在美国执业医师资格考试(USMLE)中的准确率超过94%,并在由医生(如协和、北医等头部三甲高年资主任、主治医师)和心理学专家作为评测主体的真实人工评测中表现超越了GPT-4。
随着市场的成熟,大模型企业开始更加注重产品的核心竞争力和实际场景的用户体验。
2023年6月开始的“百模大战”已经逐渐降温,大模型行业的市场竞争已经从烧钱阶段转向了更加理性和务实的阶段。为应对市场压力和生存挑战,初创企业们正在努力通过应用开发实现转型,谁能更精准地将AI技术融入实际应用场景,并创造出切实的价值,将成为决定其在市场中生存与发展的关键。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。