GPT-4V

首页 > GPT-4V

正面硬刚GPT-4V！浙大校友开源多模态大模型LLaVA-1.5，130亿参数8个A100一天训完

原文来源：新智元由无界 AI生成9月底，OpenAI宣布ChatGPT多模态能力解禁。多模态GPT-4V的神奇能力让众人惊呼：这就是GPT-4.5吧？这才没过多久，GPT-4V的开源竞争对手——LLaVA-1.5，就已经来了！4月，来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研
2023-10-09 10:04
连葫芦娃都数不明白，解说英雄联盟的GPT-4V面临幻觉挑战

让大模型同时理解图像和文字可能比想象中要难。由无界 AI生成在被称为「AI 春晚」的 OpenAI 首届开发者大会拉开帷幕后，很多人的朋友圈都被这家公司发布的新产品刷了屏，比如不需要写代码就能定制应用的 GPTs、能解说球赛甚至「英雄联盟」游戏的 GPT-4 视觉 API 等等。不过，在大
2023-11-14 10:18
微软出品，166页深度解读，多模态GPT-4V

原文来源：AIGC开放社区由无界 AI生成多模态王炸大模型GPT-4V，166页“说明书”重磅发布！而且还是微软团队出品。什么样的论文，能写出166页？不仅详细测评了GPT-4V在十大任务上的表现，从基础的图像识别、到复杂的逻辑推理都有展示；还传授了一整套多模态大模型提示词使用技巧——手把
2023-10-10 10:04
比Siri更懂iPhone！GPT-4V可“操作”手机完成任意指令，无需训练

一项研究发现：无需任何训练，GPT-4V就能直接像人类一样与智能手机进行交互，完成各种指定命令。比如让它在50-100美元的预算内购买一个打奶泡的工具。
2023-11-17 10:16
媲美GPT-4V，仅使用1.2M数据、8个A100，一天内完成训练，LLaVA-1.5刷新11个基准SOTA

由无界 AI生成多模态大模型落地的风，最终还是刮了起来。十几天前，OpenAI 为 ChatGPT 添加了图像识别功能，允许用户使用上传一张或多张图像配合进行对话。从 OpenAI 自己公开的简短文档，我们得知， ChatGPT 识图功能的背后是一个名为 GPT-4V 的新款大模型。实际上
2023-10-11 10:02
GPT-4V新玩法登顶GitHub热榜，随手一画就能生成网页！web开发者：感受到了威胁

原文来源：量子位由无界 AI生成随手一画就能生成网页！GPT-4V新玩法登顶GitHub热榜，狂揽3000+
2023-11-18 10:13
“大大震惊”一位CTO：GPT-4V自动驾驶五连测

原文来源：量子位由无界 AI生成万众瞩目之下，GPT4终于推送了vision相关的功能。今天下午抓紧和小伙伴一起测试了一下GPT对于图像感知的能力，虽有预期，但是还是大大震惊了我们。核心观点：我认为自动驾驶中和语义相关的问题应该大模型都已经解决得很好了，但是大模型的可信性和空间感知能力方面
2023-10-19 10:13
超越同级7B模型！中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能

研究人员利用GPT4-Vision构建了一个大规模高质量图文数据集ShareGPT4V，并在此基础上训练了一个7B模型，在多项多模态榜单上超越了其他同级模型。原文来源：新智元由无界 AI生成OpenAI在九月份为ChatGPT添加了图像输入功能，允许用户使用上传一张或多张图像配合进行对话，
2023-12-01 10:04
GPT-4V被曝离谱bug：突然执行神秘代码，空白图片读出打折信息，网友们都看呆了

原文来源：量子位由无界 AI生成GPT-4V出现惊天bug？！原本只是让它分析一张图片，结果它直接犯了致命安全问题，把聊天记录都给抖落出来了。只见它完全没回答图片内容，而是直接开始执行“神秘”代码，然后用户的ChatGPT聊天记录就被暴露了。再如看完一份完全胡扯的简历：发明了世界上第一台H
2023-10-19 10:14
GPT-4V连小学生都不如？最新基准测试错误率竟高达90%：红绿灯认错、勾股定理也不会

文章来源：新智元编辑：LRS 好困马里兰大学发布首个专为VLM设计的基准测试HallusionBench，全面测试GPT-4V视觉错误和语言幻觉。由无界 AI生成GPT-4被吹的神乎其神，作为具备视觉能力的GPT-4版本——GPT-4V，也被大众寄于了厚望。但如果告诉你，初中生都知道的勾股
2023-11-01 10:16