智用研究院成功举办大模型评测技术研讨会

首页 > AI资讯 > 最新资讯 > 智用研究院成功举办大模型评测技术研讨会

智用研究院成功举办大模型评测技术研讨会

新火种 2023-09-15

作者｜杨文

编辑｜六耳

来源 | AI先锋官

9月7日下午，中关村智用人工智能研究院（以下简称“智用研究院”）在北京举办了大模型评测技术研讨会。中国中小企业国际合作协会企业技术能力评价专委会、朝阳区人工智能应用联合会、西安交大人机所、阿里达摩院、360人工智能研究院、华为、曙光、智谱华章、可之科技、中科极限元、中国电信、河南投资集团、创兴动力、朝科创等单位的专家参加了此次研讨会。智用研究院院长孙明俊表示：“组织大模型评测的目标是为了解决众多垂类行业用户对于大模型能力和特点的认知需求，建立一套具有中国特色、由丰富行业场景引导的评测体系，对大模型的垂直行业应用能力进行技术评判，推动产业的健康发展。”

目前，市场上常见的大模型评测模式主要有做题打分、以GPT-4为基准、竞技场模式、针对单项能力的评测等。这些评测模式涉及到大模型的效果评价、客观评价、主观评价。那么，如何将客观评价和主观评价进行有机协同就需要进一步思考。因此，在研讨会上，与会代表围绕如何建立一套客观、公正的大模型评测体系展开，就大模型的评测目标、指标、方法、数据安全、隐私保护等问题进行了全面讨论。

智用研究院首席研究员钱雨表示：“生成式大语言模型的效果评价一直以来都是困扰自然语言处理领域的重要问题之一。目前市场上陆续出现了C-Eval、CMMLU、M3KE、SuperCLUE、FlagEva等针对AI大模型评测的新工具。然而，现在的AI大模型与以往NLU类模型不同的是覆盖面更广，市面上这些评测方法能否全面系统地进行评测尚且值得探究。”

“目前大模型分为通用大模型和行业大模型，究竟是要针对通用大模型还是行业大模型做评测也值得思考。”西安交大人机所教授丁宁认为，“做行业垂类大模型的评测很有价值，难度也很高。”

经过与会代表的充分讨论，评测工作将主要关注大模型基于通用能力所拥有的垂直行业应用能力，并就评测主题内容、数据集来源、评测维度、评价方法和技巧等方面达成一致，全力实行小步抢跑，加快推出大模型评测的阶段性成果。除此之外，研讨会上还成立了大模型评测工作组。技术组组长由西安交大人机所教授丁宁担任，成员单位包括西安交大人机所等；组织组组长由智用研究院首席研究员钱雨担任，副组长由创兴动力集团董事长兼CEO陈志刚担任，成员单位包括智用研究院、中国中小企业国际合作协会企业技术能力评价专委会、创兴动力、朝科创等。

接下来，智用研究院将继续组织相关会议，以形成最专业科学的大模型评测方法，并计划于10月份对大模型评测体系进行重磅发布。中关村智用人工智能研究院（简称“智用研究院”）是在北京市科委、中关村管委会指导下，由百度、小米、旷视和一流科技联合发起创办的民办非企业机构，致力于推进各行各业智能化进程。智用研究院通过对复杂系统决策、复杂信息推理、技术研判、复杂系统综合应用等能力体系的研究，建立了人工智能产业信任机制和数字化转型基础设施，并打造出智算云平台、行业大模型、边缘计算服器等智能化基座。

除此之外，还通过标准研究和检测认证能力建设、行业智能化创新课题研究、技术产品转化、人才培训及投融资服务等手段，实现了高新技术从原始创新到落地应用协同推进的闭环支撑，大力推进智能化技术在实体经济中的广泛应用。创兴动力集团是国内领先的创新创业服务机构之一，拥有创新孵化载体、企业赋能加速、数字化、资讯、政策及产业服务等业务板块。在AI方面，公司今年的算力运营服务发展迅速，同时推出了AI大模型应用精选与评测产品“AI先锋官”，形成移动网站、微信小程序、微信公众号等产品和传播矩阵。截至目前，“AI先锋官”通过跟踪行业前沿资讯、专家专访、精选评测70余款大模型应用产品及直播，成为行业人士聚集社区之一。

Tags:

大模型研究院模型

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

智用研究院成功举办大模型评测技术研讨会

NVIDIA深度适配通义千问大模型，推出舱驾融合大模型解决方案

NVIDIA深度适配通义千问大模型推出舱驾融合大模型解决方案

哈啰亮相2024云栖大会：展示AI整体布局及大模型案例

在线可玩！智谱开源图生视频模型，网友直呼Amazing！

奥特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍

热门文章

联想AIPC全家桶接入DeepSeek，本地跑70B大模型，离线也能写总结

AI图像生成平台「LiblibAI」获数亿元融资

AI剧本风控项目启动天使轮融资

【VIP机会日报】机器人概念再度走强栏目追踪行业动态提及产业相关公司强势涨停

紫光国微：在特种集成电路业务方面强化业务能力、提升发展质量

联芸科技：我司已量产的商用产品暂未应用于无人驾驶

L3上路倒计时？工信部加快推进智能网联车规划产业基建+商业化迎来关键节点

资讯出海，扬帆起航正当时！

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议