首页 > 多模态

多模态

  • 谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强

    在多模态(视觉语言)大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。由无界 AI生成在大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更小规模的模型仍然很重要,它们更易于训练和服务,更加环境友好,并为模型设计

  • AI2南邮校友等打造Unified-IO2:首个视觉/语言/音频/动作多模态模型

    首个视觉、语言、音频和动作多模态模型Unified-IO 2来了!它能够完成多种多模态的任务,在超过30个基准测试中展现出了卓越性能。首个具备理解和创造图像、文本、音频以及动作能力的自回归多模态模型来了!来自艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、华盛顿大学的学者提出了Unif

  • ChatGPT多模态能力引发热潮,但自家论文揭示GPT-4V仍存缺陷

    撰文:Kyle Wiggers来源:TechCrunch由无界 AI工具生成当 OpenAI 首次发布其旗舰文本生成人工智能模型 GPT-4 时,该公司吹捧了该模型的多模态性 -- 换句话说,它不仅能理解文本,还能理解图像。OpenAI 表示,GPT-4 可以为相对复杂的图片添加字幕,甚至