不让视觉语言模型「盲猜」，性能竟直接提升一倍？

首页 > AI资讯 > 最新资讯 > 不让视觉语言模型「盲猜」，性能竟直接提升一倍？

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

新火种 2024-11-15

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

团队的共同一作林之秋（Zhiqiu Lin）是卡内基梅隆大学的博士研究生，由Deva Ramanan教授指导，专注于视觉-语言大模型的自动评估与优化。团队的马紫晛（Zixian Ma）是华盛顿大学的博士研究生，由Ranjay Krishna教授指导，专注于视觉-语言大模型的评测以及与人的交互。

在诸如 MME、MMBench、MMMU 和 ScienceQA 等复杂的视觉问答（VQA）基准上，GPT-4o、Qwen2-VL 等视觉语言模型已经取得了显著进展。然而，这些模型真的理解自然图像吗？近日，卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench，这是一项发表于 NeurIPS'24 的以视觉为核心的 VQA 基准。它通过自然图像上的简单问题——即自然对抗样本（Natural Adversarial Samples）——对视觉语言模型发起严峻挑战。

Tags:

大模型模型视觉

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

AI大模型加速落地，阿里云持续「滋养」

英伟达JimFan：复刻NLP的成功路，用通用模型开启具身智能的GPT-3时刻

百度千帆大模型平台日均调用量超7亿次

百度智能云：千帆大模型平台日均调用量超7亿次

科大讯飞与中国绿发携手发布泰山大模型

热门文章

全球首次！人形机器人将与人类一起跑“半马”

政协委员甄子丹：人工智能对电影行业既是冲击也是鼓励

全国人大代表刘庆峰：发展AI新岗位，试点“AI失业保障专项保险”

我国首个林草行业大模型研发成功

工学博士娄勤俭：我对人工智能有偏爱

平稳开局！今年一季度我国货物贸易进出口10.3万亿元，增长1.3%

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

人工智能概念股午后拉升，科创人工智能相关ETF涨近4%