首页 > 基准

基准

  • 谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

    作者| 杏花编辑 | 青暮在日常生活中,我们需要一些「标准」来衡量个人的行为。而在科研工作中,研究人员也需要一些「基准」来评估模型的性能。因此,不管是普遍的「标准」还是特定的「基准」,它们都有一定的参考意义。然而,如果有一天我们发现这些「参照物」与实际生活渐行渐远时,它们该往何处去?近日,由加州大学

  • 《“巢燧”大模型基准测试报告》在成都发布,中文大模型数学推理能力大幅增强

    12月25日,于成都举行的“2024人工智能大模型基准测试科创发展大会”上,《“巢燧”大模型基准测试报告》(以下简称“报告”)正式发布。该报告由OpenEval平台、天津大学自然语言处理实验室和大模型基准评测专家委员会联合红星新闻发布,聚焦知识能力和价值对齐两大维度,对国内研发的开源和闭源大语言模型

  • 自己发基准自己第一,Anyscale行为惹社区吐槽

    前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。第二天就收获 AI 社区的大量吐槽,原因是排行榜的「基准甚至没有得到很好的校准」。这是 Anyscale 这家初创公司正在经历的事情。

  • GPT-4V数学推理如何?微软发布MathVista基准,评测报告长达112页

    大型多模态模型会做数学题吗?在微软最新发布的 MathVista 基准上,即使是当前最强的 GPT-4V 也会有「挫败感」。微软最近发布了名为 “MathVista” 的全新多模态数学推理基准数据集,同时提供了一份涵盖 112 页的详细评测报告,专注于大型多模态模型的数学推理表现。

  • 商汤“夺金”SuperCLUE-V多模态大模型基准10月榜单

    今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商量多模态大模型API入口(限时免费!):https://platform.sensenova.

  • PapersWithCode官宣突破6k+基准,TensorFlow影响力第一

    作者 | 西西编辑 | 陈彩娴刚刚,知名机器学习论文网站 Papers With Code 在推特上官宣:「我们突破了 6000 个基准!我们现在囊括了超过6.4k个机器学习的基准。非常感谢领域成员的持续贡献!」Papers with Code 中收集了各种机器学习的内容(论文、代码、结果),为研究

  • 中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

    在当今迅速发展的人工智能时代,大语言模型(LLMs)在各种应用中发挥着至关重要的作用。然而,随着其应用的广泛化,模型的安全性问题也引起了广泛关注。探讨如何评估和提升这些模型在复杂的法律、政策和伦理领域的安全性,成为了学术界和工业界亟待解决的重要议题。首先,大语言模型的安全性与其对安全知识的理解密切相

  • SuperCLUE发布中文大模型基准测评2023年度报告

    12月28日,国内中文模型评测机构SuperCLUE发布中文大模型基准测评2023年度报告。根据报告,过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。

  • 多样任务真实数据,大模型在线购物基准ShoppingMMLU开源|NeurIPS&KDDCup2024

    谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力与潜力。一直以来,想要完整建模在线购物相当复杂,主要痛点是:多任务性:在线购物中