重磅更新丨Midjourney推出“风格调整器”,一致画风不再是难事
撰文:Carl Franzen
来源:VentureBeat
图片来源:由无界 AI生成
作为最火的 AI 艺术和文本到图像生成器之一,Midjourney 可以根据用户用纯正英语输入的提示生成高质量的作品,这些作品已经出现在了电视和影院中。
Midjourney 由前 Magic Leap 程序员大卫 - 霍尔茨(David Holz)构思,于 2022 年夏天推出,在独立消息应用 Discord 的服务器上吸引了超过 1600 万用户,并由一个小规模的程序员团队不断更新,推出了包括平移、扩展和以动漫为重点的移动应用在内的新功能。
不过,对于希望用同一风格讲述具有凝聚力的故事的企业、品牌和创作者来说,2023 年 11 月 1 日晚推出的最新更新(名为 style tuner“风格调整器”)可以说是迄今为止最重要的更新。这是因为,该功能允许用户生成自己独特的视觉风格,并将其应用于应用程序中生成的任何图像,甚至可能是所有图像。
在该功能之前,用户必须重复文本描述,才能在多张图片上生成一致的风格,而且即使这样也无法保证结果,因为 Midjourney 和大多数人工智能艺术生成器一样,可以提供功能无限的各种图片风格和类型。
现在,用户不再依赖于自己的语言,而是可以在各种风格中进行选择,并获得一个代码,将其应用到今后的所有作品中,使它们保持在同一美学风格中。Midjourney 用户还可以选择将代码复制并粘贴到其他地方,以便保存并在今后使用时参考,此外,用户甚至可以与组织中的其他 Midjourney 用户共享代码,让他们以相同的风格生成图片。这对于企业、品牌和任何寻求以统一风格开展集体创作项目的人来说都是巨大的挑战。
如何使用 Midjourney 风格调整器
进入 Midjourney Discord 服务器,用户只需输入“/tune”,然后按提示操作即可调试风格。
例如,我想在冬季更新我的产品或服务网站的背景图像,加入更多雪景和舒适的空间。那么,我可以在“/tune”后输入一个提示想法 --“一个机器人穿着舒适的毛衣,坐在壁炉前用杯子喝着热巧克力”。
随后,Midjourney 的 Discord 机器人会自动回复一大段信息,详细解释风格调整过程,并询问用户是否要继续。注意,这个过程是需要付费的(Midjourney 订阅计划起价为每月 10 美元,按月支付,或预付每年 96 美元),并使用每个计划附带的一些快速 GPU 点数(根据计划层级的不同而不同,越贵的计划授予的快速 GPU 点数越多)。与“relaxed”(休闲)模式相比,这些点数用于更快速地图像生成。
选择风格方向和模式及其含义
该信息包括两个下拉菜单,允许用户选择不同的选项:“风格方向”的数量(16、32、64 或 128)和“模式”(默认或 raw)。
其中,“风格方向”设置表示 Midjourney 将根据用户的提示生成多少张不同的图片,每张图片都显示出截然不同的风格。然后,用户就有机会从这些图片中选择自己的风格,或将生成的图片组合起来,在其中几张图片的基础上创建新的元风格。
重要的是,不同风格方向选项生成的图片数量不同,各自耗费的 GPU 点数也不同。例如,16 种风格方向会耗费 0.15 个 GPU 点数,而 128 种风格方向则会耗费 1.2 个 GPU 点数。因此,用户应该仔细斟酌自己想要生成多少种不同的风格,以及是否要花费所有这些点数。
同时,“模式”设置是二进制的,用户可以选择默认模式或 raw 模式,这关系到照片的真实度和颗粒感。Raw 图像看起来更像胶片或数码单反相机,因此可能更逼真,但也会包含一些人工痕迹,而默认模式和经过调整的平滑模式则不会。
在本文的演示中,我们选择了 16 种风格方向和默认模式。需要说明单是,在我们的测试中,以及一些用户在网上报告的测试中,Midjourney 错误地给用户提供了比他们所要求的多一级的风格方向,因此在我们的案例中,虽然我们要求的是 16 种,却得到了 32 种风格。
选择模式和风格方向后,Midjourney 机器人会询问你是否确定要继续,并再次显示你正在使用的点数,如果你按下绿色按钮,就可以继续。整个过程可能需要 2 分钟。
如何找到可供选择的不同风格
在 Midjourney 完成对风格调整器选项的处理后,机器人会回复如下图所示的一条信息“风格调整器已准备就绪!您的自定义风格调整器已完成生成。您现在可以在这里查看、共享和生成风格:”,然后是指向 Midjourney 调整器的网站(域名为 tuner.midjourney.com)的 URL。
生成的 URL 结尾应包含一串随机的字母和数字。为了安全起见,我们在下面的截图中删除了我们的网址。
点击 URL 即可在浏览器中进入 Midjourney 网站。
随后,用户将看到来自 Midjourney 的定制但默认的信息,显示用户的提示语言,并解释如何完成调整过程。也就是说,Midjourney 要求用户在两个带标签按钮的不同选项中进行选择:“一次比较两种风格”或“从一个大网格中挑选你的最爱”。
在第一种情况下,“一次比较两种风格”时,Midjourney 会显示您之前在 Discord 的风格方向选项中选择的任何数量图像的网格,每行 2 种,每种风格 4 张图片。
然后,用户可以从每一行中选择一个 4×4 网格,行数不限,Midjourney 将根据这些网格的组合来制作风格。你可以通过网格周围出现的白色轮廓来判断网格是否被选中。
如果我从第一行中选择了右边的图片,又从最下面一行中选择了左边的图片,那么 Midjourney 就会把这两种图片风格应用到一个组合中,用户就可以把这个组合风格应用到今后的所有图片上。正如 Midjourney 在选择页面底部所指出的,从每一行中选择更多的选项会产生一种更“细致入微、排列整齐”的风格,而只选择几个选项则会产生一种“大胆的风格”。
第二个选项是“从一个大网格中挑选你的最爱”,用户可以从根据之前设置的风格方向数量生成的所有图片的整个网格中只选择一张图片。在我们这篇文章中,总共有 32 张图片排列在一个 8×4 的网格中。与“比较两种风格”选项相比,该选项更精确,但也因此造成了更多限制。
在本文中,我们将选择“一次比较两种风格”,总共选择 5 个网格,然后让算法来决定合并后的风格。
将新调整的风格应用到新图片和提示中
无论用户选择了多少行图片作为风格的基础,Midjourney 都会自动应用该风格,并将其转化为数字和字母的简码,用户可以手动复制并粘贴到今后的所有提示中。该代码会出现在用户唯一的风格调整器页面底部的多个地方,既包括标有“您的代码是:”的部分,也包括代码后面的部分,还包括根据用户提供的原始代码制作的提示示例,该示例位于最底部的一个持久叠加 chyron 元素中。
然后,用户可以复制这些代码并将其保存在某个地方,也可以复制整个原始提示,并在底部 chyron 中添加代码。用户也可以按底部的“刷新”小图标(圆形箭头)重做整个风格。
然后,用户需要返回 Midjourney Discord 服务器,并在提示后粘贴代码,如下所示:“想象/一个机器人穿着舒适的毛衣,坐在壁炉前用杯子喝着热巧克力 -- 风格 [此处插入风格代码]”。
下面是我们使用原始提示和新生成的风格生成的 4×4 图像网格:
我们最喜欢第四个机器人,因此我们将选择它,点击“U4”即可!
现在,我们可以通过复制粘贴/手动添加“-style”语言到新提示符的末尾,将相同的风格应用到新的提示中就像这样:“机器人家族打开礼物 - 风格 [此处插入风格代码]”。以下是一些结果:
还不错吧!请注意,这是在来回生成几次之后的结果。此外,风格代码还可以与提示中的其他参数一起使用,包括宽高比/尺寸。下面是一个 16:9 版本,使用的是相同的提示语,但写法如下:“一个机器人家庭打开礼物 -ar 16:9 -style [此处插入风格代码]”。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。