谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

首页 > AI资讯 > 最新资讯 > 谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

新火种 2023-11-15

站长之家11月9日消息:最新研究警告，大型模型在基准评估中可能面临潜在危害，原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。

研究发现，由于预训练语料包含大量公开文本，而评估基准建立在这些信息之上，大型模型在实际应用中可能产生潜在的危害。

在多项模拟测试中，研究人员发现当大型模型的预训练数据中包含某个评测基准的数据时，其在该基准中表现更好。然而，在其他常识和数学基准中，模型的表现下降。甚至在没有泄露数据的任务中，模型的表现也受到影响并下降。

研究团队分析了这种训练数据泄露情况可能性，指出大型模型的预训练语料和基准测试数据都采用公开文本，导致数据重叠在所难免。当前的模型评估方式难以严格检查异常数值提升，而大型模型的预训练语料被视为核心机密，外界无法评估，造成模型意外“投毒”。

为规避这一问题，研究团队提出了一些建议。首先，建议大型模型应采用多个基准测试，尽管在实际情况中完全避免数据重叠很难。其次，对基准测试维护人员，应提供基准测试数据来源，分析数据被污染的风险。然而，研究团队也承认本次研究存在一定局限，未对不同程度的数据泄露进行系统性测试。

该研究的发现对评估大型模型在各种基准测试中的表现提出了重要警示，并为未来的研究提供了有价值的参考。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的学者联合完成，其中包括两位数据挖掘领域的专家:文继荣和韩家炜。文继荣教授分别是中国人民大学高瓴人工智能学院院长和中国人民大学信息学院院长，而韩家炜教授是伊利诺伊大学香槟分校计算机系教授，同时也是美国计算机协会院士和IEEE院士。

这一研究呼吁关注大型模型的基准评估问题，强调在评估过程中需要更多的透明度和多样性。对于未来的研究，需要进一步探讨不同程度的数据泄露对模型性能的影响，并在预训练中引入数据泄露进行更深入的模拟测试。

Tags:

机器学习模型基准

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

TeleAI完成首个全国产化万卡万参大模型训练，并正式开源TeleChat2-115B

又创新高，阿里通义开源模型Qwen2.5进入大模型盲测全球前十

用Cursor打造大模型竞技场：最会整活的居然是它

智谱宣布：国庆期间官方模型API调用最低1折

智谱AI宣布最低1折开放所有模型

热门文章

三六零开源升级版自研大模型360Zhinao2-7B：数学推理能力提升，医疗教育领域更实用

特斯拉Optimus展示新一代灵巧手，机器人产业ETF（159551）涨超3%

马斯克“开怼”SEC：六年骚扰还不够？律师公开质问幕后黑手

“人工智能+”，河南怎么“+”？

《金融大模型应用评测指南》发布，系全国首个以金融业务能力为核心的团体标准

AIGC“重塑”影视制作产业快手可灵AI用户超600万探索多元变现模式

北京：预计全市2024年人工智能产业规模突破3000亿元

中央经济工作会议：以科技创新引领新质生产力发展建设现代化产业体系

《中国语言服务发展报告（2024）》（语言服务蓝皮书）发布