多模态

首页 > 多模态

谷歌视觉语言模型PaLI-3问世，参数仅5B，更小、更快、更强

在多模态（视觉语言）大模型领域，拼参数赢性能的同时，追求参数更小、速度更快、性能更强是另一条研究路径。由无界 AI生成在大模型时代，视觉语言模型（VLM）的参数已经扩展到了数百甚至数千亿，使得性能持续增加。与此同时，更小规模的模型仍然很重要，它们更易于训练和服务，更加环境友好，并为模型设计
2023-10-19 10:06
AI2南邮校友等打造Unified-IO2：首个视觉/语言/音频/动作多模态模型

首个视觉、语言、音频和动作多模态模型Unified-IO 2来了！它能够完成多种多模态的任务，在超过30个基准测试中展现出了卓越性能。首个具备理解和创造图像、文本、音频以及动作能力的自回归多模态模型来了！来自艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、华盛顿大学的学者提出了Unif
2024-01-01 10:04
ChatGPT多模态能力引发热潮，但自家论文揭示GPT-4V仍存缺陷

撰文：Kyle Wiggers来源：TechCrunch由无界 AI工具生成当 OpenAI 首次发布其旗舰文本生成人工智能模型 GPT-4 时，该公司吹捧了该模型的多模态性 -- 换句话说，它不仅能理解文本，还能理解图像。OpenAI 表示，GPT-4 可以为相对复杂的图片添加字幕，甚至
2023-09-28 10:15