我们尝试让绘画AI成为负责插图的新同事

技术正在突飞猛进。

编辑刘翁婳2022年12月26日 17时38分

随着讨论热度逐渐褪去，“AI绘画”的话题在最近这段时间似乎已经渐渐不再掀起波澜，却已有不少游戏公司悄无声息地将AI绘画加入了自己的工作流程中。在探索AI绘画工具化的浪潮中，作为一群绘画方面的外行人，触乐也踏出了自己的第一步——在祝佳音老师的指示下，我们正在尝试使用AI绘画工具生成文章所需的插图。

文章插图的版权问题对大部分使用者而言都是个不小的隐患，要想在开源或有版权的图片网站上为文章找到切合主题的插图也不是件容易的事。AI绘画似乎成了一个不错的选择——在我们的想象中，只要为AI提供几段描述或是关键词，AI就能“读懂并画出”我们想要的图片。事实真的如此简单吗？为了实现“让AI帮我们画插图”的目标，最大程度上解放劳动力，我们做出了一些尝试。

■ 画风、付费、本地化？

要想生成对应风格的插图，第一步当然是挑选一个合适的模型。AI绘画的模型演化进度在最近短短半年间可谓突飞猛进，光是国内外主流模型便已有五六个，各类风格化模型更是百花齐放。不过，要找到一个适合生成文章插图的模型并不容易。有些模型是开源的，有些需要付费才能使用，有些游走于法律的灰色地带，被人破解后偷偷下载……

无论是哪种，总要上手试试才行。我们在最后选择了4种模型作为备选方案：开源后支持本地部署，曾经一度号称“最强绘画AI”的Stable Diffusion；老牌AI研究团队OpenAI旗下最早的几个图像生成AI之一DALL·E；架设在Discord频道中，持续更新模型的Midjourney；以及最后，支持日式画风的NovelAI本地部署版本。

首先必须声明的是，尽管目前的AI绘画版权问题仍不明朗，但“本地部署版NovelAI”一定是其中最不靠谱的一个——不提图片库的版权问题，模型的来源本身便游走在法律的灰色地带。相比起来，本地部署的Stable Diffusion则“名正言顺”得多。自Stable Diffusion宣布开源之后，在GitHub上即可下载Stable Diffusion的新旧版本，在本地架设后，借助WebUI工具便可以直观地调整生成图片的各项参数与图片预览。

不过，天下没有免费的午餐——虽然开源的行为接近于“将午餐送到你的嘴里”，但运行程序同样需要有足够的算力。几年前还算得上配置不错的GeForce RTX 2060显卡如今多少有些力不从心。有人曾统计过不同的显卡利用Stable Diffusion模型生成512×512大小图像时所耗费的时间，2060显卡需要17秒，3080只需要7秒——不一定足够精准，但也有参考价值。

当然，实际使用过程中，你会意识到17秒只是一种理想状况。随着迭代步数的增加、画幅的调整与生成数量的增多，生成图片所需的时间几乎呈指数式上涨。最合理的方式，还是先生成512大小的图片，再通过图片扩大算法将其放大。即便如此，当你把迭代步数不断调高，也可能面临内存溢出的风险。更直观的感受是，在图片生成过程中，电脑的风扇声几乎没有停过。

相比起来，另外两家付费的绘画AI——DALL·E与Midjourney就对电脑显卡友善得多。它们的图片生成并不需要你紧张地监控显卡温度，防止烧坏，只需要向它们的服务器发送对应描述词，服务器便会吐出一组图片以供用户选择。只是与此相应，每次占用服务器资源生成图片需要消耗用户一定量的积分，开始你可以免费试用，试用完每个账号的免费额度之后，必须得为账号充值积分才能继续生成。

一般而言，用一组关键字生成4张512×512的例图大约需要1积分。每个绘画AI的积分定价略有差别——DALL·E的付费积分相对更贵一些，大约是15美元115积分，折合人民币大约1元生成一次；Midjourney提供了每月10美元约200张图的包月套餐，算下来便宜不少。

不管是DALL·E、Midjourney还是Stable Diffusion，最关键的，当然还是图片生成的质量。我们使用了几组不同的关键词，测试AI们的表现。

■ 描述与关键词

在插图这方面，相比起精美的3D建模图片或是贴近照片的现实风格图片，祝佳音老师更加青睐的是手绘杂志插图风格。但在风格的描述上却遇见了不少麻烦：该怎样告诉AI我们需要什么？

一开始，我们尝试用某一本杂志的刊名笼统地描述它的插图风格：例如，在关键词里加上《纽约客》（New Yorker）。问题随之而来：即使在同一本杂志里，插图风格并非单一不变。在这一点上，免费的Stable Diffusion为我们提供了不少试错的案例——即便你加入了“手绘”“无模糊”“清晰线稿”与艺术家的名字等关键词，绘画AI还是不太明白你究竟想要什么，只能一次给你端上来几张不同风格的图片任你挑选，你可以看得出来，这些风格确实都曾出现在杂志中。至于是否能够找到你想要的，就得指望运气了。

指定的范围比较宽泛时，Stable Diffusion会一次生成数张不同风格的图片

想知道某种具体绘画风格的名字也不算容易。在大多数情况下，我们想了半天也只能想出来“手绘”或是“水彩”等笼统的描述。好在我们找到了搜索引擎Lexica，网站上整理了不少描述词与生成图片的案例，可以通过文字或是图片搜索找到你想要的词汇。

不过，Lexica也并非百试百灵。一方面，如果你瞄准的是不那么大众的艺术家，尝试生成对应风格图片的用户不多，能提供的例子也十分有限。另一方面，AI生成图片的过程伴随不小的随机性，用户上传的图片与关键词不是每次都足够准确——上传的例图看起来不错，实际生成时怎么也跑不出类似的图片更是常态。

Stable Diffusion的问题在这里也渐渐显露：模型在生成真实照片风格或是细腻的原画风格上可谓一骑绝尘，特别是更新后的Stable Diffusion2.1版本，生成的照片风格图像几乎可以以假乱真。但相对应的，当涉及相对平面的艺术风格时，想要生成出合适的图片，需要做出不少尝试。

当然，描述词带来的门槛也是问题之一——任何人在生成图片的过程中，不断调整、修正并找到合适的关键词同样需要时间。从这一点上来说，Stable Diffusion对零基础使用者并非那么友好。如果不细致调整关键词，直接用自然语言描述想要的图片，可能需要生成不少图片才能获得一张令人满意的图像。例如，我们描述了一个具体的场景：“一个女孩在堆满了杂物的办公桌前，桌上的外卖袋和泡面摞得很高，墙上有个日历，日历上‘发售日’后面的数字被红笔划掉了好几道。女孩抱着头，显得非常痛苦。”

直接将这一整段描述塞给Stable Diffusion之后，它展现出了前所未有的疑惑。

相比起来，付费的DALL·E与Midjourney模型在经历了不断的迭代与调整之后，生成无法使用的“废图”的概率要低得多。在Midjourney中使用同一组关键词，只需要一个简单的关键词“by Yuko Shimizu”来指定画风，便可得到表现相当不错的结果。

可以看出，Midjourney正确理解了“外卖盒”，但对于“痛苦的”（Painful）的理解则有些奇怪

DALL·E对画风的理解不太到位，却正确理解了描述的内容。在数个模型中，DALL·E描绘的人物情感可谓惟妙惟肖。

在生成文章插图的需求当中，如果考虑实际投入使用，付费的DALL·E与Midjourney看起来确实是更好的选择。在风格化插画方面，Midjourney的表现又更胜一筹。只需要几个关于绘画风格或作者的关键词，Midjourney就能很快“理解”你想要的究竟是什么。

■ 版权，与接下来的麻烦

显而易见，目前已经有一些绘画AI投入商业运营了，它的用户中也有一些要将AI生成的图片投入商业使用。既然如此，版权自然是个绕不过去的话题。在这一点上，由于AI绘画领域的发展速度实在太快，总体上，相关的法律法规都没来得及跟上。目前，大部分AI绘画模型的版权条款都秉承着“撒手掌柜”的风格。Midjourney与Stable Diffusion都明确表示，生成图片的版权将归于生成者所有，但同时也这样指出：请勿尝试创建涉及色情、歧视等可能对他人造成伤害的图像。如若引起争议，一切职责与平台无关，由争议双方自行解决。

判定内容是否合法，最后还是落在了具体的作品上。如果是已经不再受到版权法保护的画家作品（一般是画家去世50年以后），模仿他们的风格进行再次创作当然没有问题。如果要模仿仍受版权法保护的现代画家们，便要好好斟酌尺度才行。

尽管在大多数情况下，AI绘画并不能完美地生成你所想要的单一风格，看起来更像是多种风格的杂糅，但如果针对某种风格或某一位画师的作品进行训练，AI生成的作品难免会出现跟模仿对象过于相似的问题。在这一点上，主流的几个大型模型其实都“做得不错”：即便指定了作者，在DALL·E或Midjourney中，也很难做到和作者画得一模一样。

值得再次强调的是，在最近短短半年的时间里，AI绘画模型的进化速度可谓突飞猛进，但法律法规还没能赶上这个速度，目前国际上仍不存在对应的法律法规用以规范AI绘画的版权问题。AI图像的商业使用仍旧存在一定的风险——当我们向AI绘画平台付费后，平台是否应当为训练所使用的网络图片集付费？

个人使用者面对的问题相对简单，只要AI绘画平台不倒打一耙，突然宣称版权不归属于生成者，一般来说在版权上不会出现什么幺蛾子，尤其是个人非商业的使用，并无太大风险。对借助AI工具辅助工作的美术工作者们来说，另一方面的问题是，AI生成图像并不一定能被所有受众接受。几天前，某款移动端游戏的宣传图片便被怀疑是借助AI工具进行了辅助绘画——背景中的金属部件很明显“不像是人画的”。这件事在玩家间激起了一阵波澜——一些玩家对此十分失望，在他们看来，“AI绘画”似乎天然与“廉价”“不认真”等描述挂钩。

这件事并不是个例，不少游戏开发者透露，他们已将AI绘画加入自己的工作流，却不敢将这个事实公之于众。但从另一个角度出发，如果将AI绘画作为辅助工具，排除训练库版权上的隐患问题，它与Blender、Enscape等3D辅助软件的差别在哪里？如果将AI绘画作为图片素材库，它与Unsplash等无版权素材库得到的结果又有多大的差别？

无论如何，现在的AI绘画模型确实还不太成熟，但你可以直观地感受到技术的快速进步——说不定过不了多久，我们真的会使用AI生成插图，那会是更逼真、更像是人画的插图，到那时，不知各位读者是否能发现呢？