首页 > AI资讯 > 最新资讯 > 多模态AI层出不穷谷歌放连招最新文生图模型“拍死前浪”

多模态AI层出不穷谷歌放连招最新文生图模型“拍死前浪”

科创板日报    2023-12-17

《科创板日报》12月14日讯(编辑 宋子乔) 多模态AI年末有多卷?谷歌用实际行动回答你。

12月6日,谷歌上线原生多模态大模型Gemini单挑GPT-4,随即其媲美Gen-2、比肩Pika的文生视频模型W.A.L.T面世。就在12月14日,谷歌又上线了文生图模型Imagen 2,该模型被称为DALL•E 3和和Midjourney的最强竞品。

在多模态这条路上,谷歌已全面出击。

据谷歌介绍,基于谷歌最先进的文本到图像扩散技术,Imagen 2不需要复杂、专业的提示词,可根据自然语言提示生成高质量、逼真、高分辨率、美观的图像;具备强大的图像理解能力,可进行视觉问答,即为图像创建详细的长文标注,并对图像内元素提出的问题给出详细答案;可理解复杂抽象的概念(如诗歌、文学作品),并将这些描写可视化。

效果如何?

一直以来,AI绘画的一个缺陷在于不会画“手”,而Imagen 2的数据集和模型进步,让其能够生成逼真的手部和脸部图像,且对光线的处理堪称完美。

Imagen 2生成的手部和人脸示例提示词:A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile(一位32岁的年轻女性自然保护主义者,正在丛林中探险。她体格健壮,一头短卷发,面带亲切的微笑)提示词:a french bulldog at the beach(海滩上的一只法国斗牛犬)

在理解抽象的文学作品上,Imagen 2同样出色,精确表述出了藏于文字中的意境之美。

提示词是美国作家Phillis Wheatley《晚间赞美诗》中的一句话“溪流潺潺,鸟儿啁啾,空中飘荡着它们混合的音乐”。提示词是小说《白鲸记》的一段文字“想象一下大海的微妙之处,最可怕的地方在于生物如何在水下滑行,却在大多数情况下不易察觉,并且诡谲地隐藏在最可爱的蔚蓝色调下”。提示词是《秘密花园》中对知更鸟的描述:知更鸟从缠绕的常春藤上飞到墙头,张开嘴巴,唱出了一个响亮而甜美的颤音,只是为了炫耀自己。世界上就没有什么东西能比它更惹人喜爱了——它们几乎总是这样做。

Imagen 2还有哪些亮点?

功能上,Imagen 2还支持图像编辑功能,如修复(inpainting)和扩图(outpainting)。

用inpainting技术直接在原始图像中生成新内容Imagen 2的AI扩图功能

除了英语之外,Imagen 2还支持另外六种语言(中文、印地语、日语、韩语、葡萄牙语、西班牙语),另有许多其他语言计划于2024年初接入该模型。

应用上,谷歌有意强调了Imagen 2的营销用途——该模型可用于logo生成、制作商品广告页。

Imagen 2可以在生成含有特定文字或短语的物体图像时,确保输出图像中包含正确短语Imagen 2能为品牌、产品等生成多种创意和逼真的Logo

安全性上,Imagen 2集成了SynthID——用于加水印和识别 AI 生成内容的工具包,其生成的图片可添加不可见的数字水印;Imagen 2接受了数据安全训练,内嵌安全过滤器可防止生成潜在有害内容,如暴力、冒犯或色情内容。

值得注意的是,Imagen 2目前并没有向所有人开放,仅供许可名单上的Vertex AI客户使用。Vertex AI是谷歌云上集成多种工具的托管式AI平台,可以理解为谷歌为客户提供的AI应用训练场。

这正体现了谷歌在AI业务上的战略——依托谷歌云打造AI生态,更多地面向开发者。在8月份的谷歌云Next大会上,谷歌云的CEO透露,自从今年年初Vertex AI支持生成式AI技术,Vertex AI用户数量同比增长了15倍以上。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。