AI大模型专家访谈丨港科大何俊贤：评测基准是大模型开发的指南针

首页 > AI资讯 > 最新资讯 > AI大模型专家访谈丨港科大何俊贤：评测基准是大模型开发的指南针

AI大模型专家访谈丨港科大何俊贤：评测基准是大模型开发的指南针

红星资本局 2024-01-03

12月28日，2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会（下称“大会”）将在成都市正式举办。

一方面，大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”，将对国内大模型开展评测工作，深入了解当前国内大模型的能力水平以及大模型企业发展情况。另一方面，头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂，共同探讨行业发展趋势，搭建产业上下游沟通平台，推动大模型技术的进步。

大会举办前夕，红星资本局对话了香港科技大学计算机系助理教授何俊贤，他主要研究关注大语言模型的efficient adaption, factuality, reasoning, evaluation等方向。何俊贤担任ACL和EMNLP的领域主席，论文入选ACL 2019最佳系统论文提名、ICLR 2022最有影响力论文榜单（paper digest），曾获百度AI博士奖学金、AI华人新星百强等荣誉。他指导学生发布了大模型的中文权威评测基准C-Eval，发布以来下载量超过50万次。

何俊贤表示，大语言模型距离大众很近，新技术很快会被大众感知。他们工作的终极目标，是实现真正意义上的强人工智能。

以下是对话实录：

红星资本局：ChatGPT很受欢迎，也正是你研究的语言方向大模型。如何来衡量一个大语言模型的智能程度？

何俊贤：真正的智能，是用户已经分辨不出，对面到底是一个专家，还是一个机器。

真正的智能不只是闲聊，比如推荐商品，询问今天的天气，还可以问关于历史数学物理的各种知识，甚至可以上传一道考试题，直接问这道题怎么做，也可以帮你写代码，帮你写新闻稿。

如果这些方方面面的事情都可以做得很好，感觉很聪明，可以获取世界上的知识，也有很强的推理能力。那么我们觉得这已经和真人无异了。

红星资本局：你指导学生发布了大模型的中文权威评测基准C-Eval，和之前的评测榜单有什么区别？

何俊贤：C-Eval是中文的第一个测大模型的评测基准。

以前在自然语言处理方向，也有很多中文的数据集和评测基准被广泛应用。但随着去年底像GPT这样的大模型出来后，很多以前的测评就没那么全面，因为大模型的能力实在太强了。以前的评测基准的区分度不够，行业突然经历大变革，急需新的评测基准来帮助大家开发模型。

如果没有评测基准，开发会非常困难，就像航行没有指南针。因为在整理数据做训练来开发模型的过程中，没有标准来告诉你，方向到底是对还是错。

之前传统评测基准的任务就像有一条点评，帮我预测到底是一星的还是两星的，到底是正面还是负面的评价，这种任务相对来说很简单。

现在C-Eval的任务是真的高考、考研的，以及清华北大上交这些学校本科生的数学物理生物真题，有50多个科目，和以前的难度很不一样。

红星资本局：如果要处理现在更高的难度，对大模型提出的新要求在哪？

何俊贤：大模型需要能够准确记忆更多的知识，且能够进行更复杂的推理。

红星资本局：从C-Eval的题目来看，不只考验信息的储备能力，还有数理类的解题能力？

何俊贤：一个模型除了知识以外，还很重要的是分析能力，因为我们认为真正的智能是需要推理的。

一方面，以中文的背景来说，模型需要知道很多知识，包括和中国文化有关的历史、政治、地理等各方面的知识。这需要记忆能力，但记忆能力比较浅显，只需要记住就可以。

另一方面，数学和物理需要的逻辑推理能力很难。知道数学和物理的原理，要运用原理，用一定的逻辑把题目解出来。这本质上是一种强逻辑的测试，往往对大脑非常难，因为某种程度上，这才关系到真正的智能。

红星资本局：C-Eval榜单测过的近100个模型中，中文的大语言模型到哪个阶段了？和ChatGPT4.0的差距还有多少？

何俊贤：跟ChatGPT4.0的差距还是很大的。因为ChatGPT在中文基准上，没有办法完全反映出它的优势。

我们5月份测的时候，ChatGPT4.0是遥遥领先的，比第二名要高很多。但是现在ChatGPT4.0在我们的榜单上，可能只排到前10左右。一方面因为C-Eval测评的一部分需要死记硬背，测的又是中国文化，ChatGPT没有那么擅长。另一方面因为国内很多模型有对C-Eval进行针对性的优化，导致榜单数字虚高，也就是我们常说的“刷榜”行为。

但是从更多的评测来看，以及大家直观的感受，其实国内的模型和ChatGPT4.0的差距还很大。用户的感受是最直观的，这很难欺骗大众。

红星资本局：对中文的大模型来说，需要解决的差距在哪？

何俊贤：国内的模型和ChatGPT最大的差距，还是强推理能力上。这关系到更高层次的智能，真正的差距并不是死记硬背的那部分。

真正的差距，是一些很难的任务，比如说让它帮你写代码，让它理解一个很长的指令，然后让它自己推理的能力，这方面的差距非常大。这是很关键的能力，死记硬背上的差距并没有那么大。

（文章来源：红星资本局）

Tags:

自然语言处理模型指南针

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

AI大模型专家访谈丨港科大何俊贤：评测基准是大模型开发的指南针

AI大模型加速落地，阿里云持续「滋养」

李彦宏数千万元投资大模型创业公司鼓励创业者坚持长期主义

英伟达JimFan：复刻NLP的成功路，用通用模型开启具身智能的GPT-3时刻

百度千帆大模型平台日均调用量超7亿次

百度智能云：千帆大模型平台日均调用量超7亿次

热门文章

新消费日报|飞猪元旦出境游机票、酒店双增长；鸿蒙智行累计上线华为超充站超500座……

AI自习室能成为“伴学良师”吗

参加完NeurIPS，纽约大学教授感受到了AI博士生的焦虑与挫败

大健康科研成果如何转化？这场集聚医疗机构、创业者、投资机构及高校的论坛来了

机构密集调研AI眼镜概念股！龙头双双20CM涨停，本月接待量居前热门股名单来了

「AI新世代」年末投资冲刺！阶跃星辰完成B轮融资资本密集涌入AI赛道

助力北京机器人产业发展机器人产业投融资对接活动在首钢园举办

快买正版！国际唱片业：现在中国互联网每天上百万AI做的音乐都是非法盗版

2024美股风云变幻，回看震撼市场的十大事件|环球年终盘点