作品中的幽灵:AI可能终结艺术吗?之1.3

第一部分:滥觞:2022年的美学大爆炸

第3篇:奇点事件(下):围墙花园与公共市集

2022年的图像浪潮之所以得以爆发,依赖于两种截然相反的哲学和商业模式的共同推动。

一种是Midjourney所代表的“平台模式”:一个精心修剪的、体验丝滑的“围墙花园”。另一种是Stable Diffusion所代表的“开源模式”:一个混乱、自由、泥沙俱下的“公共市集”。

这两种模式在美学风格、社区生态和商业伦理上截然相反,它们共同构成了这场美学巨变的核心矛盾与张力。

“围墙花园”:Midjourney的数据飞轮 

Midjourney的创始人是戴维·霍尔兹(David Holz)。他的策略是“产品驱动增长”(Production-Lead Growth, PLG),而他选择的载体,是游戏玩家的聊天平台Discord。

这是一个天才的决定。Midjourney没有选择构建一个独立的网站或应用,而是将自己“寄生”在Discord这个庞大的“社区生态”中。这极大地降低了使用门槛,更重要的是,它构建了一个完美的“数据飞轮”(Data Flywheel)。

在这个生态中,海量用户聚集在一起,他们同时扮演着三个角色:

  1. 作为消费者:他们付费使用工具。
  2. 作为灵感来源:Midjourney的聊天室是公开的,用户“在欣赏其他作品时更易激发灵感”。你可以实时看到别人正在使用什么提示词(Prompt)。
  3. 作为无偿的训练师:这才是关键。用户输入的每一个提示词、每一次点击“U”(Upscale,放大)或“V”(Variation,变体)的选择,都在为Midjourney提供“数据正反馈”。

用户在“点赞”那些更精美、更“酷”的图像时,实际上是在用自己的审美,“投票”告诉AI应该往哪个方向进化。这种PLG模式使得Midjourney能够“根据用户需求针对性地训练模型并快速迭代产品”。

其结果是,从V4到V5版本,图像在细节、脸部建模、逼真度和对提示词的理解力上(如V5能反映“芭比娃娃”细节,而V4不能)实现了惊人的飞跃。

然而,这种模式的美学是“受引导”的、中心化的。Midjourney形成了一种独特的、高饱和度的、受社区“点赞”逻辑欢迎的“Midjourney美学”。它像一个“围墙花园”,用户体验好,迭代快,但用户的数据和创作(在某种程度上)被平台所“捕获”。

“公共市集”:Stable Diffusion的无政府主义 

如果说Midjourney是“围墙花园”,是“加速器”;那么Stability AI于2022年8月发布的Stable Diffusion,则是“公共市集”,是“引爆器”。

Stable Diffusion的开源模式是一种“无政府主义的数据主义”。它将一个媲美Midjourney的强大模型“免费”地交给了所有人。任何人都可以下载它,在自己的本地电脑上运行它。

其后果是革命性的:

  1. 美学的去中心化:用户可以在本地复现、修改和训练自己的模型。这导致了“数万个”自定义模型的涌现。想要一种特定的动漫风格?或者模拟某个摄影师的风格?社区用户会立刻训练出一个专门的模型。其风格是“混乱”的、无限制的。
  2. 权力的下放:任何人都可以无限制地生成图像,用于任何目的——包括合法的艺术创作、非法的深度伪造(Deepfakes)或版权灰色地带。

必然的“原罪”:开源的广度 vs. 闭源的速度

这场变革的政治经济学是分裂的。变革的“速度”来自闭源的Midjourney(其高效的数据飞轮);但变革的“广度”、“深度”以及随之而来的“法律危机”,则完全来自开源的Stable Diffusion。

为什么?

因为闭源的Midjourney,其训练数据是“内部”的、可控的,法律风险相对较低(至少是隐蔽的)。而开源的Stable Diffusion要想实现同等的能力,就“必须”依赖于大规模的、混乱的、未经授权的公共互联网数据集。

这个数据集就是LAION(Large-Scale Artificial Intelligence Open Network)。

LAION是一个德国非营利组织,它“抓取”(scraped)了互联网上“50亿张”图像及其文本描述。Stable Diffusion正是站在LAION这个“数据巨人”的肩膀上才得以训练完成。

因此,Stable Diffusion的“开源”这个“滥觞”,“自带”了其“原罪”:它的训练数据来源是不干净的,它没有征求任何原作者的许可。这就直接导致了后来的艺术家集体诉讼(详见第9篇)。这场官司是“必然”的。

2022年的美学巨变,正是由“平台资本主义”(Midjourney)和“无政府主义的数据主义”(Stable Diffusion)这两种相互矛盾的力量,共同撕扯出来的。

 



留下评论