全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
GPT-4o再次掀起多模态大模型的浪潮。如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。
GPT-4o再次掀起多模态大模型的浪潮。如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。
概要复旦DISC实验室推出了ReForm-Eval,一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构,构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点:构建了横跨8个评估维度,并为每
12月25日至26日,以“大模型·大未来”为主题的“2024人工智能大模型基准测试科创发展大会”(下称“大会”)在成都举办。来自中国科学院、北京大学等高校和研究机构的专家学者、中国信通院人工智能研究中心等权威机构以及超过百家人工智能产业企业齐聚一堂,共同探讨人工智能产业发展新方向
中国科大等机构联合团队发布了SciGuard和SciMT-Safety,用于保护AI for Science模型,防止在生物、化学、药物等领域滥用,并建立了首个专注于化学科学领域安全的基准测试。研究团队发现开源AI模型存在潜在风险,可被用于制造有害物质并规避法规。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfen
声明:本文来自于【新智元导读】代码能否跑起来的不是判断可靠性的标准,用语言模型写代码还需要考虑生产环境下的预期外输入。大型语言模型(LLM)在理解自然语言和生成程序代码方面展现出了非凡的性能,程序员们也开始在编码过程中使用Copilot工具辅助编程,或是要求LLM生成解决方案。经过几版迭代后,目前L
小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假——不仅官方宣称的成绩在第三方测试中大打折扣,模型还被质疑套壳Claude。面对浩大的声浪,厂商CEO终于发文道歉,但并未承认造假,表示在调查有关原因。被指控造假的,就是宣称“干翻GPT-4o”的70B开源大模型Reflection。一开始的
作者| 杏花编辑 | 青暮在日常生活中,我们需要一些「标准」来衡量个人的行为。而在科研工作中,研究人员也需要一些「基准」来评估模型的性能。因此,不管是普遍的「标准」还是特定的「基准」,它们都有一定的参考意义。然而,如果有一天我们发现这些「参照物」与实际生活渐行渐远时,它们该往何处去?近日,由加州大学
12月25日,于成都举行的“2024人工智能大模型基准测试科创发展大会”上,《“巢燧”大模型基准测试报告》(以下简称“报告”)正式发布。该报告由OpenEval平台、天津大学自然语言处理实验室和大模型基准评测专家委员会联合红星新闻发布,聚焦知识能力和价值对齐两大维度,对国内研发的开源和闭源大语言模型
前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。第二天就收获 AI 社区的大量吐槽,原因是排行榜的「基准甚至没有得到很好的校准」。这是 Anyscale 这家初创公司正在经历的事情。