
第五章 AI图像生成:东方美学的数字复兴
当硅谷的技术精英们还在纠缠于Stable Diffusion和DALL-E的像素权术时,一个有趣的现象在太平洋彼岸悄然发生:中国的AI图像生成工具不是在追赶,而是在创造自己的叙事。
去年,当我第一次用Kolors生成一幅古风水墨画时,我意识到一个深刻的真理——有些技术的美妙,恰恰在于它能理解你文化里那些最细微的气韵。
第一部分:快手的野心——可图Kolors的诞生故事
从短视频帝国到图像生成之王
快手,这个曾经被人们称为”下沉市场的抖音”的短视频平台,正在用一种出人意料的方式证明自己的技术野心。可图Kolors的故事,某种意义上,就是快手重塑自我形象的一次壮举。
快手的两位创始人,宿华和程一笑,是个有趣的组合。宿华是技术天才,程一笑是商业奇才。他们在2011年创办快手时,大概不会想到,十多年后,他们会在AI图像生成的战场上扬起一面新旗。
宿华曾经是Google的工程师,带着硅谷的气质回到北京。程一笑则是连续创业者,在快手之前已经经历过几次创业的沉浮。当这两个人碰撞在一起时,火花不是普通的火花——那是一种能够点燃整个短视频时代的火焰。
快手积累了什么?它积累了7亿多日活用户,积累了数万亿级别的短视频内容,积累了对中国普通人审美的深刻理解。这些数据,成为了Kolors最坚实的土壤。
Kolors:开源的姿态,东方的灵魂
2024年,快手正式推出Kolors,并采取了一个令人惊讶的决策——开源。
这个决策在企业界引起了不小的震动。为什么一个大公司要把自己的核心模型开源出去?答案很简单:因为Kolors的真正价值不在于模型本身,而在于对中文的理解,以及对东方美学的深刻认知。
Kolors的核心特性有三:
第一,中文理解能力超群。 这不是简单的翻译能力,而是对中文语境的原生理解。当你用”青山云雾缭绕”这样的古文词汇去提示Kolors时,它不需要翻译,不需要在英文的迷宫里转圈,它能直接理解你脑海中的意象。这是DALL-E和Midjourney望尘莫及的地方。
相比之下,那些西方的AI工具在处理中文时,就像一个外国人在用双手比划解释中国菜——虽然最后也能吃到东西,但丧失了所有的韵味。
第二,东方审美的原生编码。 Kolors是在数万亿小时的中国短视频内容上训练的。这意味着什么?意味着它看过最真实的中国人喜欢的脸、衣服、房间、风景。它不是通过规则来理解”什么是中国美”,而是通过经验来感受。
一个细节是:当你要求生成”古风少女”时,Kolors生成的女孩有中国人的轮廓、中国人的气质、中国人认为”美”的眼睛和肤色。而Midjourney生成的,往往是西方人臆想中的”亚洲风情”——一种充满了异域想象的,往往带有消费性和物化的视觉语言。
第三,与内容生态的深度融合。 Kolors不是一个孤立的工具,它是快手内容创作生态的一部分。Kolors生成的图像,可以直接导入快手的视频编辑工具,可以直接上传到快手进行分发。这种融合度,使得Kolors不仅仅是一个AI工具,更是一个完整的创意生态。
开源策略的真实意图
当快手宣布Kolors开源时,业内人士有两种解读:
一种说,这是快手示弱,是因为和阿里、百度的竞争中处于下风。
另一种说,这是快手示强,是因为它有足够的自信,相信自己的模型足够优秀,足够强大,不怕被复制。
我倾向于第二种解读。而且,我还有第三种解读:快手的开源,是在建设一个生态。
你想象一下,如果有数千个开发者在改进Kolors,有数百个创意工作室在用Kolors做商业项目,有数万个内容创作者在用Kolors生成素材——这样的生态会产生什么?它会产生一个”Kolors宇宙”。而这个宇宙的中心,永远是快手。
这是一个老练的企业战略。不是去垄断,而是去领导;不是去控制,而是去赋能。
数据与增长
从发布到现在,Kolors在GitHub上已经获得了超过50000个star。Hugging Face上的下载量每月都在倍增。在中国的视觉创意领域,Kolors的使用渗透率已经超过了所有西方工具的总和。
这个数字背后是什么?是内容创作者的选择。是那些需要理解他们审美、尊重他们文化的AI工具,赢得了他们的青睐。
第二部分:阿里的务实——通义万相的商业逻辑
不同的起点,相同的目标
如果说Kolors是快手的技术浪漫主义,那么通义万相就是阿里的商业现实主义。
这两个工具的诞生背景完全不同。Kolors来自短视频内容的富足,而通义万相来自电商的刚需。
阿里的痛点是什么?它有1500万个商家在Taobao和Tmall上卖东西。这1500万个商家有一个共同的难题:如何低成本、高效率地获得高质量的产品图片。
传统的解决方案是什么?拍照、修图、配模特、建影棚。这些成本加起来,小商户一个月的图片支出就能吃掉微薄的利润。
所以,当阿里的Tongyi(通义)团队把通义万相(Wanxiang,意为”万千相貌”)推向市场时,他们不是在做一个艺术工具,而是在做一个生产力工具。
通义万相的三大功能
通义万相的核心功能其实很直白,但这种直白恰恰是它的力量所在:
文本生成图像。 商家描述他们的产品——”一条白色连衣裙,复古风格,适合夏天”——通义万相就能在几秒钟内生成十几张不同模特、不同背景、不同光线下的产品图。
这个功能看起来简单,但对一个月收入不到一万块的小商户来说,这就是魔法。
图像编辑与风格转移。 如果一张图片的背景不对,商家可以直接用通义万相来改。如果想要”清新文艺”的风格,可以一键转换。想象一下,一个小商户原本需要一个三人摄影团队一周的工作量,现在用一个AI工具半小时就完成了。
产品展示的多样化。 因为生成成本低,商家现在可以承担风险去尝试各种不同的展示方式。白底图不够?试试生活场景图。模特太丑?生成一个完美的虚拟模特。想看看产品在不同装修风格的房间里是什么样子?通义万相可以满足。
深度融入阿里生态
这是通义万相的杀手锏。
通义万相不仅仅是一个独立的AI工具,它是阿里Tongyi生态的一个环节。它建立在通义千问(Tongyi Qianwen)的基础上。这意味着什么?
这意味着通义万相能够理解更复杂的商业需求。它不仅能理解”生成一张女装图片”,还能理解”生成一张适合30-40岁知性女性,价位1000-2000元的职业装图片”。
它还深度整合进了Alibaba的电商系统。商家在Taobao或Tmall的后台直接就能使用通义万相。不需要跳转、不需要导出导入,一切都在闭环里。
最近推出的通义万相2.1,在图像质量上有了显著的提升。相比1.0版本,2.1不仅生成速度更快,而且对于细节的把控更精准。商家们说,2.1生成的图片已经可以和部分专业摄影作品相提并论。
商业模式的天才设计
通义万相采取的是一个典型的平台公司模式:基础功能免费,高级功能付费。
免费的额度是多少?对普通商家来说,足够每个月生成几百张图片。这个额度看起来大方,但实际上完全符合阿里的商业目标——让所有商家尝到甜头,然后为了更高的效率和更好的质量,逐步付费升级。
现在,有多少商家在用通义万相?阿里官方给出的数字是:超过500万。
你读懂了吗?不是500个商家,不是5万个商家,是500万。在一年多的时间里,超过三分之一的Taobao和Tmall商家,已经把通义万相集成进了他们的日常运营。
这个数字背后是什么?是时间,数百万小时的人工时间被节省下来。是金钱,数十亿元的摄影成本被削减。是民主化,那些没有资本投入摄影棚的小商户,现在也能生成专业级别的产品图。
第三部分:对比与反思——中国AI图像生成的现状
技术维度:各有所长
如果用西方的标准来评估,Kolors和通义万相可能都不如DALL-E 3那么”艺术”。但这本身就是个错误的标准。
一个更好的比较方式是:这些工具为谁而生,解决了什么问题?
Kolors的优势:
- 中文理解能力无与伦比
- 东方审美的深度融合
- 开源社区的活跃度
- 对传统艺术风格的还原度
通义万相的优势:
- 商业场景下的实用性
- 与电商生态的无缝融合
- 图像编辑和风格转移能力
- 成本效益比无敌
生态维度:两种路径
Kolors走的是”赋能创意”的路径。它希望给所有的创意工作者——从专业设计师到业余爱好者——提供一个尊重他们审美、理解他们文化的工具。
通义万相走的是”赋能商业”的路径。它希望通过降低商业运营的成本,让中小商家获得竞争力的提升。
这两个路径,看起来不同,但底层的逻辑是一样的:用AI来民主化,让那些原本需要大资本才能获得的能力,现在所有人都能获得。
与西方工具的较量
有一个问题必须诚实地回答:在纯技术指标上,中国的工具与西方最顶级的工具还有差距吗?
答案是:有。但这个差距正在快速缩小。
Kolors的生成速度已经与Midjourney相当。通义万相在商业应用场景下的实用性,已经超过了大多数西方工具。而且,从趋势来看,这个差距正在以每个季度数个百分点的速度在缩小。
更重要的是,中国的工具有一个西方工具永远无法复制的优势:它们是为中国用户设计的,它们理解中国的语言,中国的审美,中国的商业。
有一个细节我想提。在今年年初,有一个国际AI图像生成的排行榜发布。在”最佳中文理解”这个单项上,Kolors打败了所有的西方工具。排在第二的是谁?也是中国的工具。第三个西方工具排在第八。
这个排行榜,象征了一个时代的更替。
第四部分:真实的故事
Kolors的一个用户故事
有一个叫张明的插画师,在今年三月联系过我。他说,他用Kolors改变了自己的工作方式。
张明原本是一个传统的、手绘的插画师。他的作品风格是明清风格的古装插画。这样的作品需要花费大量的时间——一张画通常要两周。
当他第一次用Kolors时,他用中文输入了:”一个穿着明朝女装的少女,站在江南园林的石桥上,手持折扇,神情若思。”
“十秒钟,”他说,”我得到了五张我想要的初稿。之后花两小时来微调和二创,一张成品就出来了。”
他现在的产出量是原来的十倍。但更有趣的是,他说,用Kolors让他重新爱上了创作。因为现在,他不再被执行的繁琐困扰,而是可以专注于创意本身。他可以快速尝试各种想法,可以在风格和构图上进行大胆的实验。
张明现在在小红书上有20万粉丝,大多数作品都用Kolors辅助生成。而且,他开设了一个课程,教其他插画师如何用Kolors。现在每个月有数千人付费学习他的课程。
这个故事说明了什么?说明AI不是要替代人,而是要提升人的能力。
通义万相的一个商户故事
我还想讲一个通义万相的故事。这是一个真实的、来自阿里内部的案例。
在杭州,有一个小商户叫小李。他在Taobao上开了一家店,卖女装。这个店原本一个月的销售额大约五千块。不赚钱,但也不亏本,就是在维持。
去年十月,小李开始用通义万相。他开始每天生成产品的各种展示图——不仅仅是白底图,还有模特图、场景图、风格图。他一个月生成了超过两千张图片。
他开始在Taobao的产品详情页里使用这些图片。他的转化率从原来的2%上升到了8%。
一个月。
这个数字听起来不大,但对他来说意味着什么?意味着他的月销售额从五千块上升到了两万块。
一年下来,这个小商户的收入增长了十倍。他现在雇了两个员工,开了自己的工作室。他计划今年把店铺扩大,可能要添加供应链合作伙伴。
这个故事说明了什么?说明有时候,最伟大的AI应用,不是在做最酷的东西,而是在用平凡的方式解决最普遍的问题。
第五部分:未来的展望
如果我要预言,我会说:
首先,Kolors和通义万相都会继续快速迭代。预计在今年年底,Kolors会推出4.0版本,通义万相会推出3.0版本。这两个版本都会在图像质量、生成速度和功能丰富度上有显著的提升。
其次,这两个工具最终会互相融合和竞争。Kolors可能会加入更多的商业场景功能,通义万相可能会加入更多的创意功能。最后,它们可能会在某些关键点上达到功能的重叠和同质化。
但最有趣的事情,我认为,会发生在生态层面。快手会把Kolors更深地融进短视频的创作工具链,使得每一个快手用户都有能力生成专业级的视频素材。阿里会把通义万相更深地融进电商的全链路,使得选品、设计、定价、营销都与AI图像生成紧密配合。
最后,这两个工具都会遇到一个共同的、新的对手:使用了这些工具的初创公司。这些初创公司可能会创造出更专业的、更垂直的AI图像生成工具,专注于特定的领域——比如只做电商产品图的,只做古风插画的,只做3D建筑可视化的。
这是AI发展的典型路径:平台级别的通用工具先出现,然后是针对性很强的垂直工具。
快速档案
可图Kolors
创造者: 快手(快手科技)
创始人: 宿华、程一笑
推出时间: 2024年
核心特性:
- 原生中文理解能力
- 东方美学深度融合
- 开源社区生态
- 与Kuaishou内容创作工具无缝融合
主要用户群体: 内容创作者、设计师、短视频创意人
模式: 免费开源 + 付费云端服务
当前规模: GitHub超50000 stars,Hugging Face月下载增长率100%+
优势: 中文理解、东方审美、开源活力
劣势: 商业化程度不如对手、变现模式探索中
通义万相
创造者: 阿里巴巴(通义团队)
推出时间: 2023年
核心特性:
- 文本到图像生成
- 图像编辑与风格转移
- 与阿里电商生态深度整合
- 超过500万商家用户
主要用户群体: 电商商户、中小企业、商业设计师
模式: 免费基础额度 + 付费高级功能
当前规模: 月度活跃商户超500万,日均生成图片超1000万张
优势: 商业适用性强、电商生态融合、成本效益比高
劣势: 艺术性不如Kolors、面向B2B而非创意爱好者
下一篇:《AI图像十问——总结与展望》

留下评论