AI艺术有点东西，但仍需人为精确调整

Dall-E 2、Midjourney和Stable Diffusion可按需生成令人印象深刻的图像,但要使它们达到完美还需要耐心和熟练的调整。

一群由四条龙组成的图像在眼前成形。它们都有金色的皮肤,错综复杂的鳞片和尖刺,以及巨大的獠牙。有些朝右,有些朝左。一对有三个头角,另一对有两个，一条在鼻子上有个角。

而这些是被一句“咒语”召唤出来的——不是用精灵语或上古语,而是用简单的英语。分享这句咒语:“Chinese dragon made from glossy reflective gold, with oversized details, ultra-realistic 3D render, rim lighting, warm light, cool shadows, soft ambient occlusion, digital painting, 8K HDR（用光泽反射的金色制成的中国龙,用夸张的细节,超现实的3D渲染,边缘光线,暖色调的光线,凉爽的阴影,柔和的环境光遮蔽,数码绘画,8K HDR）。”

只需要这些词语,以及大约10秒的思考时间,一个名为 Midjourney 的 AI 聊天机器人就可以画出四幅数字图像——每一幅都是对这句描述的独特诠释。重复这个咒语,会得到四个新的变体。如此反复,生成无限可能。

根本性转变

ChatGPT 对写作有帮助,Midjourney 对图像具有同样的作用。而且它做这件事的时间更长。在2022年夏天,它随着其他几个所谓的生成式AI应用程序一起进入图形设计界,包括 Dall-E 2(由 ChatGPT 制造商 OpenAI 创造)和开源(免费使用)程序 Stable Diffusion。

“对于没有关注这项技术的人来说,Dall-E 2 肯定首次让他们感叹‘哇,这真是了不起’的时候,”视频游戏设计师Marshall Smith说,他是 FarmVille 和 Words with Friends 等流行文化名作的资深设计师。

这就是这些应用程序从让人毛骨悚然的笨拙跨过了怪诞谷,变得讨人喜欢,甚至能够激发创作者的想象力的时候。只需要几句话,设计师才能借助复杂的软件创造出的细致生动的图像,现在能通过 AI 聊天机器人轻松产生。

但这算是艺术吗?

这不仅仅是一个哲学问题。它也关系到商业乃至法律方面的考量。

尽管 Midjourney 制作的龙在门外汉看来令人印象深刻,但都还不足以直接用于视频游戏。要达到那个程度还需要与 AI 进行几轮对话——实际上是与几个 AI ——以及运用 Photoshop 等传统工具。

“与这些东西的迭代是需要一些耐心的,” Smith说。“所以我会想‘哦,这很酷,但根本不是我想要的’。”

生成式 AI 使与计算机对话更加容易,但(到目前为止)它们仍然无法读懂人的思想。想要通过人工智能从一个粗略的idea变成专业的艺术品,需要投入大量的人力智慧。让我们来看看使用金龙进行这个过程可能的流程。

如何创作这条龙

第一步:设计构思

Smith目前的雇主Big Run Studios刚开发了一款新的手机老虎机游戏,名为黑屏老虎机。尽管已经完成,但Smith还是从头去创作其组件,使用各种生成式AI工具和传统应用程序。

从众所周知的 OpenAI 的 ChatGPT 开始。“列出20个最受欢迎的老虎机主题”,他输入。ChatGPT 立即快速地命名并描述了二十多个选择,包括埃及、水果、丛林探险以及中国文化。对最后一个,它写道:“这些游戏通常有龙、灯笼和金币等符号。”

决定用这个主题,Smith让聊天机器人为游戏思考不同价值等级的符号层次结构。它们包括“灯笼”、“钻石镶嵌的莲花”以及最高“奖金”级别的“金龙”。然后,他指示 ChatGPT:“对每个符号,我都需要一个图像提示。这是对符号图像的字面视觉描述。”他还提供了他知道Midjourney会响应的术语示例,如“超现实3D渲染”、“凉爽的阴影”、“柔和的环境光遮蔽”和“数码绘画”。 ChatGPT欢快地创建了一个电子表格,包含八个符号的提示词,包括金龙。

第二步:迭代

Smith从 ChatGPT 复制图像提示词,粘贴到 Discord(Midjourney 聊天机器人的所在地)的消息应用中,并没有得到成品。相反,看到四个低分辨率的样本可供选择。

选择一个样本后,可以点击图像下方的一些按钮来调整它——例如,指定 Midjourney 在解释提示时可以采取的艺术自由度(样式化)。也可以修改最初的提示文本并重新运行整个流程。这里的可能性是无限的:一百多个词的提示并不罕见。但Smith对龙的最新版本已经相当满意,只是通过在提示中添加“无背景的白色”来简单地移除背景风景。

有时候对话会更棘手,因为文字本身是开放式的解释——正如Smith在为一个西部主题游戏创作人物时发现的。“我说过有一个积雪的山峰,”他说。“所以AI就抓住了会下雪这个想法。所以这个人物现在穿着毛领子大衣。”这并不是Smith想要的,所以他不得不进行微调。“我不得不在提示中分拆一些idea。所以,好吧,山峰上有积雪,但前景是蒙大拿州的一个暖和阳光明媚的日子。”他说。

这种“提示工程”流程已经成为一门艺术,并可能具有法律影响。美国版权局3月份发布的一项规定似乎在说,生成式AI无法被版权保护,因为“用户无法对这些系统如何解释提示和生成素材行使最终的创作控制权”。但它援引了关于“汇编”艺术品的联邦法律,继续说道:“如果人类以足够创造性的方式选择或编排AI生成的素材,‘最终的整体作品可能构成原创作品的著作权’。”

是否可以说,复杂的提示迭代过程符合可版权保护的汇编标准? “是否可以对提示获得版权保护,这取决于个案的事实,所以这可能是逐案分析,而不是通用规则。” 耶鲁法学院研究科技和知识产权的常驻学者Mehtab Khan说。

(根据Midjourney的服务条款,付费会员对其创作拥有权利,但Midjourney也有权使用和重新混合这些创作。)

第三步:去像素化

一旦认为Midjourney已经尽可能地推进图像,该应用可以输出更高分辨率的版本。但目前其分辨率并不高,最大只有1024 x 1024像素。(和AI所有事物一样。)

对Smith的使用目的来说,这太低了,所以他转而使用另一个应用Topaz Labs的 Photo AI。

它吸收低分辨率图像并推断出丢失的细节可能是什么样子的。Smith通过在原始图像上拖动滑块来演示Photo AI如何完善它。龙头部毛茸茸的模糊区域变成了丰富、分层的细小软毛。这个应用不仅仅在平滑锯齿边缘,它在创建全新的特征。

在这个过程中,龙从一个大约100万像素的图片变成一个3700多万像素的庞然大物。这是一个相对快速的步骤,但也是必不可少的。这个功能会并入Midjourney或其他应用吗?非常有可能——现在已经实现了。

第四步:手工制作

只凭AI生成和调整的作品已经能满足许多创作者和目的。但对于具备相关技术技能的人来说,与其费力地说服机器做调整,自己动手完成最后修改会更简单。而对于某些更精细的细节,手工仍然是唯一的方式。

因此,Smith将他的AI创造的龙移入使用超过20年的Adobe Photoshop。尽管AI在这里也提供了帮助。

为了将龙放到数字老虎机上,Smith首先必须将它从背景中剪切出来。这一直是Photoshop的核心功能,但做到完美需要一些手工调整。

自 Photoshop 在5月开始集成生成式AI以来,需要的手工调整大为减少。它现在在识别物体的轮廓方面比以前好很多——即使是龙错综复杂的皮毛、鳞片、角和獠牙的组合。为Smith剪切图像只需要点击一下(至少有时候如此,他说)。

Photoshop正在添加更大胆的生成式工具,这种工具秉承了 Midjourney 的精神,但这些还处于“测试”阶段。为了演示,Smith尝试添加龙口中喷出的火焰,输入提示词“充满活力的紫色火焰”。出现了一个卡通式的火焰,但这个过程也使龙的头部变形,眼睛变成了紫色。

但是 Photoshop 的许多传统工具仍明显优于 AI。Smith使用它们来调整颜色,例如。“我不喜欢游戏艺术中有黑色阴影,”他说。“所以用某种 purple 阴影配 yellow 高光会很酷。”Smith还可以调整对比度、照明和曝光。他可以厚化图像的部分区域,并可以做很多更多的事情。“最后的步骤你肯定是在 Photoshop 中完成,”他说。

结合使用 Photoshop 进一步加强了作品版权的主张。Khan说:“单纯的信息本身无法获得版权保护,但顺序、布局、呈现等可能有足够的创造性来获得保护。所以,使用 Photoshop 可能有助于作品获得保护资格。”

艺术家的未来何去何从?

人工智能仍无法完全取代制作高端作品的熟练艺术家。但这些工具持续改进。“他们在疯狂创新,”Smith说,这句话虽针对Midjourney,但也适用于这些应用中的任何一个。“他们不断推出新的功能,继续极大地改进了这个产品[具有]更高分辨率、更高保真度。”二维图像达到的生成式AI复杂程度,总有一天可能会来到3D动画甚至是电影制作。

它已经取代了一些单调但利润丰厚的工作,例如创建天衣无缝的背景纹理,如在织物、墙纸或包装纸中。它们本质上是无休无止的重复图像网格,也就是平铺,大量高薪工作投入到平铺之间的边界混合中,以创造无缝外观。现在像 Midjourney 这样的应用可以立即完成。

创作概念艺术的工作量也可能减少。相反,AI可以生成大量样本供设计师考虑,然后再委托艺术家创作高品质图像。例如,这允许像Smith这样的设计师添加游戏中的更多功能——甚至全新的角色——这在过去他根本无暇顾及。

无论在游戏、织物还是任何其他创作中,生成式 AI 的最终结果将是更多的艺术作品,但可能是由更少的艺术家制作。而保持就业意味着紧跟这些快速发展的技术,以便它们能提升专业人员的技能,而不是取代他们。