AI应用巡礼 | 第42期 第5篇:开源双雄的对话

稳定扩散与流翼:两个梦想家的故事

在人工智能的浩瀚宇宙中,有两颗耀眼的星辰。一颗是昔日的光芒,曾照亮整个开源图像生成的夜空;另一颗是新升起的晨星,用更绚烂的光彩重新定义了人们对AI艺术的想象。它们有着同样的血脉,却走向了不同的命运——这就是《稳定扩散》(Stable Diffusion)与《流翼》(Flux)的故事。

第一幕:梦想的起点——Stable Diffusion的传奇

某个秋日的午后,在伦敦的某个角落,一位名叫艾马德·莫塔克(Emad Mostaque)的英籍孟加拉裔青年正在思考一个宏大的问题:为什么图像生成这样的超能力,只能被掌握在大公司和科技巨头的手中?

这是一个再平凡不过的疑问,却在莫塔克的脑海中激起了千层浪。在他之前的人生中,他做过对冲基金分析师——一份体面但并不能让灵魂歌唱的工作。但他是那种人,是那种无法止息内心躁动的人,是那种看到高墙就想推倒的人。他开始自学AI,如同一个自我放逐的朝圣者,在知识的荒漠中跋涉。

2022年的夏天,命运安排了一场华丽的相遇。莫塔克创立的Stability AI与来自慕尼黑路德维希·马克西米利安大学(LMU)的计算机视觉小组(CompVis)携手,还有来自Runway的技术力量加入,三方合力于2022年8月推出了《稳定扩散》(Stable Diffusion)——这一刻,天地为之变色。

而这个小组的核心人物,便是罗宾·隆巴赫(Robin Rombach)、安德烈亚斯·布拉特曼(Andreas Blattmann)和帕特里克·埃瑟尔(Patrick Esser)。他们像是艺术与科学的混血儿,既有对美的执着,也有对算法的敬畏。特别是隆巴赫,这位年轻的天才已经在论文中开创了潜在扩散模型(Latent Diffusion Models)的理论基础,而现在,这理论终于有了它的肉体和灵魂。

开源的革命

与其说Stable Diffusion是一个产品,不如说它是一场民主运动。在一个被专有模型和付费API垄断的时代,Stability AI做出了一个大胆得近乎疯狂的选择:将代码开源。

想象一下,在2022年的夏秋之交,全世界的极客、艺术家、创意工作者们纷纷从GitHub上拉下代码,在自己的电脑上运行这个看似魔法的程序。一台普通的消费级显卡,一台笔记本电脑,就足以让任何人成为数字艺术家。这不再是科技公司的专属特权,而成了全民的狂欢。

融资的数字足以说明市场的热烈:Stability AI在短短的时间内融资超过1亿美元,估值一度高达约40亿美元。莫塔克成了新一代的科技英雄——年轻、野心勃勃、充满了改变世界的热忱。

帝国的繁荣与衰落

从2022到2024年,Stable Diffusion的生态系统呈现了令人眩目的繁荣。社区为这个开源模型开发了超过10万个自定义模型。有人创造了LoRA(Low-Rank Adaptation)这样的轻量级微调技术,使得任何人都能用小数据集训练出个性化的模型。有人开发了ControlNet,让用户可以用线稿、姿态图等精确控制生成内容。还有ComfyUI这样的可视化工作流编辑器,让非技术人员也能成为主宰像素的法师。

从SD 1.5到SD 2.0,再到SDXL的发布,每一次迭代都是一次进化的见证。特别是SDXL(Stable Diffusion XL),其生成的图像质量已经能与商业模型相抗衡,甚至在某些场景中胜出。它就像一个不断打磨的珠玉,每一次雕琢都让人们看到它内在的光辉。

但繁荣与衰落往往只在一线之隔。2024年3月,一个震撼舞台的消息传来:艾马德·莫塔克宣布辞去CEO职位。随之而来的是一系列的财务危机和管理层的混乱。那个曾经意气风发的年轻企业家,如今不得不面对现实的残酷——融资、商业化、法律诉讼、社区信任……这些东西比算法本身更难驾驭。

诉讼也随之而来。盖蒂图片社(Getty Images)对Stability AI提起诉讼,指控其使用了受版权保护的图像进行模型训练。艺术家和摄影师的抗议声浪此起彼伏。莫塔克曾经的梦想——让AI的力量为每个人所用——如今被笼罩上了伦理和法律的阴影。

然而,即便帝国的中心出现了裂缝,但它已经过于庞大而无法崩塌。Stable Diffusion已经成为开源图像生成的代名词。它的代码、它的思想、它的社区,早已超越了任何一家公司的掌控。

第二幕:新星升起——Flux的华丽出场

命运喜欢这样的戏剧转折。就在Stability AI陷入泥沼的时刻,一个出人意料的身影出现了——罗宾·隆巴赫。

是的,就是那位原本应该在Stability AI的总部里继续他的研究的科学家。但有时候,最伟大的创新不是来自既成的帝国,而是来自帝国内部对自由的渴望。

2023年,隆巴赫与黑森林实验室(Black Forest Labs)的其他创始人离开了Stability AI,在德国开启了一个新的篇章。这家新创公司的名字本身就充满了浪漫色彩——黑森林,那个充满了神话与魔法的地方。他们的目标很清晰:不是复制Stable Diffusion,而是超越它。

Flux的三个灵魂

2024年,黑森林实验室推出了Flux系列模型,包括Flux.1 [pro]、Flux.1 [dev]和Flux.1 [schnell]三个版本。这个三体结构本身就显示了设计的优雅:专业版本追求极致的生成质量,开发版本在质量与速度之间寻找平衡,快速版本则为普通用户提供足够的能力。

如果说Stable Diffusion是一位经验丰富的教科书式设计师,那么Flux就是一位充满野心的年轻艺术家。它的图像质量逼近——甚至在某些场景中超越了商业产品如Midjourney。那些人物的细节处理,那些光线的捕捉,那些构图的美感……都达到了一个新的高度。

有评测者这样形容Flux生成的图像:它们不仅仅是漂亮,而是有灵魂的。笔触、色彩、光影的交互,已经超越了单纯的技术实现,进入了艺术创作的领域。

资本的投票

融资数字再次证明了市场的信心。黑森林实验室在2024年融资超过1亿美元。这不仅是金钱的数字,更是对一个新方向的投票。对于那些曾经在Stable Diffusion上下注的风险投资者来说,看到原班人马创办的新公司,并且推出了更优秀的产品——这既是一次复仇,也是一次救赎。

而且,黑森林实验室保持了开源的传统。Flux.1 [dev]和Flux.1 [schnell]向开发者和爱好者开放,继承了当初Stable Diffusion的那种民主精神。虽然Flux.1 [pro]是商业模型,需要付费使用,但这种混合策略显然更成熟、更可持续。

第三幕:两个梦想,一个对话

在这个故事的最后,我们应该反思:Stable Diffusion和Flux究竟代表了什么?

Stable Diffusion的遗产

Stable Diffusion改变了世界的看法。在它出现之前,AI生成内容还被普遍认为是巨头公司的秘密武器。但这款开源模型证明了另一种可能性:优秀的技术不一定要被锁在黑盒里。民主化不仅仅是一个口号,而可以是真实的、可运行的。

即便面对着诉讼和管理危机,Stable Diffusion的底层贡献仍然闪闪发光。它创造了一个生态系统,一个社区,一个标准。今天任何人都可以基于它创造新的模型,开发新的应用。从医学影像到建筑可视化,从内容创意到教育工具,Stable Diffusion的影响力已经渗透到了社会的各个角落。

Flux的承诺

而Flux代表了进化和完善。隆巴赫等人的离开,可以被理解为一个温和的叛变——不是对过去的否定,而是对未来的肯定。Flux在质量上的突破,在开源与商业的平衡上的智慧,都预示了一个新的时代。

在Flux身上,我们看到了一个教训:最好的技术不是出自那些最大的公司,而是出自那些最有热情、最敢于冒险的团队。黑森林实验室虽然规模不大,但他们拥有的是核心的人才和清晰的愿景。

开源的未来

这两个故事的共同线索是:开源。从Stable Diffusion的完全开源,到Flux的混合模式,我们看到了一个行业在寻找平衡。开源本身不是目的,而是一种手段——通过开源来激发创新、建立社区、推动进步。

但开源也面临着挑战。版权问题、商业化的难题、社区管理的复杂性……这些都不会因为一个优秀的算法而自动消失。Stability AI的困境正是这些问题的集中体现。

尾声:拾遗与展望

2025年,站在这个节点回望,我们必须承认:AI图像生成的奇迹已经成为日常。不再有人对”AI能生成漂亮的图像”感到惊讶。这种司空见惯的背后,正是这类开源基础设施的功劳。

Stable Diffusion给了人们工具,Flux为人们锦上添花。一个像是梦想的先驱者,一个像是执梦人。虽然前者遭遇了风浪,但它的价值早已被刻进了这个时代的基础。后者虽然更年轻,但它身上承载的是几代人积累的经验和更清晰的远见。

在这场对话中,没有绝对的胜者和败者。只有一个不断前进的、充满了挫折与惊喜的行业,正在塑造人类未来与艺术的关系。

快速档案 · Stable Diffusion

项目内容
创始企业Stability AI
首席创始人艾马德·莫塔克 (Emad Mostaque)
成立年份2020
模型发布2022年8月
核心贡献者罗宾·隆巴赫、安德烈亚斯·布拉特曼、帕特里克·埃瑟尔
合作机构CompVis(LMU Munich)、Runway
融资规模1亿美元+
峰值估值约40亿美元
主要模型SD 1.5、SD 2.0、SDXL、SD 3.0
核心理念民主化AI图像生成,本地运行,开源共享
社区规模10万+自定义模型,活跃开发者生态
关键创新LoRA微调、ControlNet、潜在扩散模型
主要挑战版权诉讼(Getty Images)、管理危机、CEO下台
现状(2025)继续迭代,但商业模式待重构

快速档案 · Flux

项目内容
创始企业Black Forest Labs(黑森林实验室)
主要创始人罗宾·隆巴赫等前Stability AI核心团队
成立地点德国
成立年份2023
模型发布2024年
模型版本Flux.1 [pro]、Flux.1 [dev]、Flux.1 [schnell]
核心优势摄影级真实感,质量逼近/超越商业产品
融资规模1亿美元+
开源策略混合模式(Pro商业,Dev/Schnell开源)
竞争对手DALL-E 3、Midjourney、Stable Diffusion
生成质量人物细节、光影捕捉、构图美感均达业界领先
商业模式API付费(Pro)+开发者生态
发展轨迹2024-2025年快速上升,已成新贵
理念在开源与商业间找到平衡点

下一篇:《文字魔法师与游戏艺术家——Ideogram与Leonardo.ai》



留下评论