首页 > 基准

基准

  • 谨防大模型基准评估陷阱!测试集乱入预训练,模型变傻

    站长之家11月9日 消息:最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。研究发现,由于预训练语料包含大量公开文本,而评估基准建立在这些信息之上,大型模型在实

  • OpenAI将开源SimpleQA新基准以衡量大模型真实性

    财联社10月31日电,美国开放人工智能研究中心(OpenAI)当地时间10月30日宣布,为了衡量语言模型的真实性,将开源一个名为SimpleQA的新基准。该基准可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

  • SIGIR2023|30万真实查询、200万互联网段落,中文段落排序基准数据集发布

    段落排序是信息检索领域中十分重要且具有挑战性的话题,受到了学术界和工业界的广泛关注。段落排序模型的有效性能够提高搜索引擎用户的满意度并且对问答系统、阅读理解等信息检索相关应用有所助益。在这一背景下,例如 MS-MARCO,DuReader_retrieval 等一些基准数据集被构建用于支持段落排序的

  • Meta发布AI基准测试工具FACET 用于评估 AI 模型的“公平性”

    要点:Meta发布了名为FACET的数据集,用于探测计算机视觉模型对某些“类别”人群的偏见。FACET包含32000张图片,50000人的图像,标注了职业和活动“类别”,以及人口统计和身体特征。FACET可用于测试模型在不同人口属性上的分类、检测、分割和定位任务的公平性。新火种(xinhuozhon

  • 第四代至强可扩展AI性能有多强?最新MLPerf基准测试结果展示强劲性能

    从蒸汽机、电气再到互联网,每一次革命都代表着科技的飞速发展和人类文明的巨大进步,现如今,随着生成式AI的广泛应用,以人工智能为代表的新一轮科技浪潮则正在引领整个社会走向第四次工业革命,作为一种模拟人类智能的技术,AI可以通过学习、推理和自我修正等方式实现自主决策和行动,

  • 突破短视频局限!MMBench团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

    但当前的大部分评测基准仍然具有以下几个缺陷:多注重于短视频,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力;对模型的考察局限在部分较为简单的任务,更多细粒度的能力未被大部分基准所涉及到;现有的基准仍可以仅凭单帧图像以获取较高的分数

  • 蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

    站长之家 11月2日 消息:蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。此外,还针对 AIOps 任务做了细分,并添加了日志解析、时序异常检测