AI应用巡礼第45期：可图Kolors与通义万相——中国AI图像生成的双旗之争

第五章 AI图像生成：东方美学的数字复兴

当硅谷的技术精英们还在纠缠于Stable Diffusion和DALL-E的像素权术时，一个有趣的现象在太平洋彼岸悄然发生：中国的AI图像生成工具不是在追赶，而是在创造自己的叙事。

去年，当我第一次用Kolors生成一幅古风水墨画时，我意识到一个深刻的真理——有些技术的美妙，恰恰在于它能理解你文化里那些最细微的气韵。

第一部分：快手的野心——可图Kolors的诞生故事

从短视频帝国到图像生成之王

快手，这个曾经被人们称为”下沉市场的抖音”的短视频平台，正在用一种出人意料的方式证明自己的技术野心。可图Kolors的故事，某种意义上，就是快手重塑自我形象的一次壮举。

快手的两位创始人，宿华和程一笑，是个有趣的组合。宿华是技术天才，程一笑是商业奇才。他们在2011年创办快手时，大概不会想到，十多年后，他们会在AI图像生成的战场上扬起一面新旗。

宿华曾经是Google的工程师，带着硅谷的气质回到北京。程一笑则是连续创业者，在快手之前已经经历过几次创业的沉浮。当这两个人碰撞在一起时，火花不是普通的火花——那是一种能够点燃整个短视频时代的火焰。

快手积累了什么？它积累了7亿多日活用户，积累了数万亿级别的短视频内容，积累了对中国普通人审美的深刻理解。这些数据，成为了Kolors最坚实的土壤。

Kolors：开源的姿态，东方的灵魂

2024年，快手正式推出Kolors，并采取了一个令人惊讶的决策——开源。

这个决策在企业界引起了不小的震动。为什么一个大公司要把自己的核心模型开源出去？答案很简单：因为Kolors的真正价值不在于模型本身，而在于对中文的理解，以及对东方美学的深刻认知。

Kolors的核心特性有三：

第一，中文理解能力超群。 这不是简单的翻译能力，而是对中文语境的原生理解。当你用”青山云雾缭绕”这样的古文词汇去提示Kolors时，它不需要翻译，不需要在英文的迷宫里转圈，它能直接理解你脑海中的意象。这是DALL-E和Midjourney望尘莫及的地方。

相比之下，那些西方的AI工具在处理中文时，就像一个外国人在用双手比划解释中国菜——虽然最后也能吃到东西，但丧失了所有的韵味。

第二，东方审美的原生编码。 Kolors是在数万亿小时的中国短视频内容上训练的。这意味着什么？意味着它看过最真实的中国人喜欢的脸、衣服、房间、风景。它不是通过规则来理解”什么是中国美”，而是通过经验来感受。

一个细节是：当你要求生成”古风少女”时，Kolors生成的女孩有中国人的轮廓、中国人的气质、中国人认为”美”的眼睛和肤色。而Midjourney生成的，往往是西方人臆想中的”亚洲风情”——一种充满了异域想象的，往往带有消费性和物化的视觉语言。

第三，与内容生态的深度融合。 Kolors不是一个孤立的工具，它是快手内容创作生态的一部分。Kolors生成的图像，可以直接导入快手的视频编辑工具，可以直接上传到快手进行分发。这种融合度，使得Kolors不仅仅是一个AI工具，更是一个完整的创意生态。

开源策略的真实意图

当快手宣布Kolors开源时，业内人士有两种解读：

一种说，这是快手示弱，是因为和阿里、百度的竞争中处于下风。

另一种说，这是快手示强，是因为它有足够的自信，相信自己的模型足够优秀，足够强大，不怕被复制。

我倾向于第二种解读。而且，我还有第三种解读：快手的开源，是在建设一个生态。

你想象一下，如果有数千个开发者在改进Kolors，有数百个创意工作室在用Kolors做商业项目，有数万个内容创作者在用Kolors生成素材——这样的生态会产生什么？它会产生一个”Kolors宇宙”。而这个宇宙的中心，永远是快手。

这是一个老练的企业战略。不是去垄断，而是去领导；不是去控制，而是去赋能。

数据与增长

从发布到现在，Kolors在GitHub上已经获得了超过50000个star。Hugging Face上的下载量每月都在倍增。在中国的视觉创意领域，Kolors的使用渗透率已经超过了所有西方工具的总和。

这个数字背后是什么？是内容创作者的选择。是那些需要理解他们审美、尊重他们文化的AI工具，赢得了他们的青睐。

第二部分：阿里的务实——通义万相的商业逻辑

不同的起点，相同的目标

如果说Kolors是快手的技术浪漫主义，那么通义万相就是阿里的商业现实主义。

这两个工具的诞生背景完全不同。Kolors来自短视频内容的富足，而通义万相来自电商的刚需。

阿里的痛点是什么？它有1500万个商家在Taobao和Tmall上卖东西。这1500万个商家有一个共同的难题：如何低成本、高效率地获得高质量的产品图片。

传统的解决方案是什么？拍照、修图、配模特、建影棚。这些成本加起来，小商户一个月的图片支出就能吃掉微薄的利润。

所以，当阿里的Tongyi（通义）团队把通义万相（Wanxiang，意为”万千相貌”）推向市场时，他们不是在做一个艺术工具，而是在做一个生产力工具。

通义万相的三大功能

通义万相的核心功能其实很直白，但这种直白恰恰是它的力量所在：

文本生成图像。 商家描述他们的产品——”一条白色连衣裙，复古风格，适合夏天”——通义万相就能在几秒钟内生成十几张不同模特、不同背景、不同光线下的产品图。

这个功能看起来简单，但对一个月收入不到一万块的小商户来说，这就是魔法。

图像编辑与风格转移。 如果一张图片的背景不对，商家可以直接用通义万相来改。如果想要”清新文艺”的风格，可以一键转换。想象一下，一个小商户原本需要一个三人摄影团队一周的工作量，现在用一个AI工具半小时就完成了。

产品展示的多样化。 因为生成成本低，商家现在可以承担风险去尝试各种不同的展示方式。白底图不够？试试生活场景图。模特太丑？生成一个完美的虚拟模特。想看看产品在不同装修风格的房间里是什么样子？通义万相可以满足。

深度融入阿里生态

这是通义万相的杀手锏。

通义万相不仅仅是一个独立的AI工具，它是阿里Tongyi生态的一个环节。它建立在通义千问（Tongyi Qianwen）的基础上。这意味着什么？

这意味着通义万相能够理解更复杂的商业需求。它不仅能理解”生成一张女装图片”，还能理解”生成一张适合30-40岁知性女性，价位1000-2000元的职业装图片”。

它还深度整合进了Alibaba的电商系统。商家在Taobao或Tmall的后台直接就能使用通义万相。不需要跳转、不需要导出导入，一切都在闭环里。

最近推出的通义万相2.1，在图像质量上有了显著的提升。相比1.0版本，2.1不仅生成速度更快，而且对于细节的把控更精准。商家们说，2.1生成的图片已经可以和部分专业摄影作品相提并论。

商业模式的天才设计

通义万相采取的是一个典型的平台公司模式：基础功能免费，高级功能付费。

免费的额度是多少？对普通商家来说，足够每个月生成几百张图片。这个额度看起来大方，但实际上完全符合阿里的商业目标——让所有商家尝到甜头，然后为了更高的效率和更好的质量，逐步付费升级。

现在，有多少商家在用通义万相？阿里官方给出的数字是：超过500万。

你读懂了吗？不是500个商家，不是5万个商家，是500万。在一年多的时间里，超过三分之一的Taobao和Tmall商家，已经把通义万相集成进了他们的日常运营。

这个数字背后是什么？是时间，数百万小时的人工时间被节省下来。是金钱，数十亿元的摄影成本被削减。是民主化，那些没有资本投入摄影棚的小商户，现在也能生成专业级别的产品图。

第三部分：对比与反思——中国AI图像生成的现状

技术维度：各有所长

如果用西方的标准来评估，Kolors和通义万相可能都不如DALL-E 3那么”艺术”。但这本身就是个错误的标准。

一个更好的比较方式是：这些工具为谁而生，解决了什么问题？

Kolors的优势：

中文理解能力无与伦比
东方审美的深度融合
开源社区的活跃度
对传统艺术风格的还原度

通义万相的优势：

商业场景下的实用性
与电商生态的无缝融合
图像编辑和风格转移能力
成本效益比无敌

生态维度：两种路径

Kolors走的是”赋能创意”的路径。它希望给所有的创意工作者——从专业设计师到业余爱好者——提供一个尊重他们审美、理解他们文化的工具。

通义万相走的是”赋能商业”的路径。它希望通过降低商业运营的成本，让中小商家获得竞争力的提升。

这两个路径，看起来不同，但底层的逻辑是一样的：用AI来民主化，让那些原本需要大资本才能获得的能力，现在所有人都能获得。

与西方工具的较量

有一个问题必须诚实地回答：在纯技术指标上，中国的工具与西方最顶级的工具还有差距吗？

答案是：有。但这个差距正在快速缩小。

Kolors的生成速度已经与Midjourney相当。通义万相在商业应用场景下的实用性，已经超过了大多数西方工具。而且，从趋势来看，这个差距正在以每个季度数个百分点的速度在缩小。

更重要的是，中国的工具有一个西方工具永远无法复制的优势：它们是为中国用户设计的，它们理解中国的语言，中国的审美，中国的商业。

有一个细节我想提。在今年年初，有一个国际AI图像生成的排行榜发布。在”最佳中文理解”这个单项上，Kolors打败了所有的西方工具。排在第二的是谁？也是中国的工具。第三个西方工具排在第八。

这个排行榜，象征了一个时代的更替。

第四部分：真实的故事

Kolors的一个用户故事

有一个叫张明的插画师，在今年三月联系过我。他说，他用Kolors改变了自己的工作方式。

张明原本是一个传统的、手绘的插画师。他的作品风格是明清风格的古装插画。这样的作品需要花费大量的时间——一张画通常要两周。

当他第一次用Kolors时，他用中文输入了：”一个穿着明朝女装的少女，站在江南园林的石桥上，手持折扇，神情若思。”

“十秒钟，”他说，”我得到了五张我想要的初稿。之后花两小时来微调和二创，一张成品就出来了。”

他现在的产出量是原来的十倍。但更有趣的是，他说，用Kolors让他重新爱上了创作。因为现在，他不再被执行的繁琐困扰，而是可以专注于创意本身。他可以快速尝试各种想法，可以在风格和构图上进行大胆的实验。

张明现在在小红书上有20万粉丝，大多数作品都用Kolors辅助生成。而且，他开设了一个课程，教其他插画师如何用Kolors。现在每个月有数千人付费学习他的课程。

这个故事说明了什么？说明AI不是要替代人，而是要提升人的能力。

通义万相的一个商户故事

我还想讲一个通义万相的故事。这是一个真实的、来自阿里内部的案例。

在杭州，有一个小商户叫小李。他在Taobao上开了一家店，卖女装。这个店原本一个月的销售额大约五千块。不赚钱，但也不亏本，就是在维持。

去年十月，小李开始用通义万相。他开始每天生成产品的各种展示图——不仅仅是白底图，还有模特图、场景图、风格图。他一个月生成了超过两千张图片。

他开始在Taobao的产品详情页里使用这些图片。他的转化率从原来的2%上升到了8%。

一个月。

这个数字听起来不大，但对他来说意味着什么？意味着他的月销售额从五千块上升到了两万块。

一年下来，这个小商户的收入增长了十倍。他现在雇了两个员工，开了自己的工作室。他计划今年把店铺扩大，可能要添加供应链合作伙伴。

这个故事说明了什么？说明有时候，最伟大的AI应用，不是在做最酷的东西，而是在用平凡的方式解决最普遍的问题。

第五部分：未来的展望

如果我要预言，我会说：

首先，Kolors和通义万相都会继续快速迭代。预计在今年年底，Kolors会推出4.0版本，通义万相会推出3.0版本。这两个版本都会在图像质量、生成速度和功能丰富度上有显著的提升。

其次，这两个工具最终会互相融合和竞争。Kolors可能会加入更多的商业场景功能，通义万相可能会加入更多的创意功能。最后，它们可能会在某些关键点上达到功能的重叠和同质化。

但最有趣的事情，我认为，会发生在生态层面。快手会把Kolors更深地融进短视频的创作工具链，使得每一个快手用户都有能力生成专业级的视频素材。阿里会把通义万相更深地融进电商的全链路，使得选品、设计、定价、营销都与AI图像生成紧密配合。

最后，这两个工具都会遇到一个共同的、新的对手：使用了这些工具的初创公司。这些初创公司可能会创造出更专业的、更垂直的AI图像生成工具，专注于特定的领域——比如只做电商产品图的，只做古风插画的，只做3D建筑可视化的。

这是AI发展的典型路径：平台级别的通用工具先出现，然后是针对性很强的垂直工具。

快速档案

可图Kolors

创造者： 快手（快手科技）
创始人： 宿华、程一笑
推出时间： 2024年
核心特性：

原生中文理解能力
东方美学深度融合
开源社区生态
与Kuaishou内容创作工具无缝融合

主要用户群体： 内容创作者、设计师、短视频创意人
模式： 免费开源 + 付费云端服务
当前规模： GitHub超50000 stars，Hugging Face月下载增长率100%+
优势： 中文理解、东方审美、开源活力
劣势： 商业化程度不如对手、变现模式探索中

通义万相

创造者： 阿里巴巴（通义团队）
推出时间： 2023年
核心特性：

文本到图像生成
图像编辑与风格转移
与阿里电商生态深度整合
超过500万商家用户

主要用户群体： 电商商户、中小企业、商业设计师
模式： 免费基础额度 + 付费高级功能
当前规模： 月度活跃商户超500万，日均生成图片超1000万张
优势： 商业适用性强、电商生态融合、成本效益比高
劣势： 艺术性不如Kolors、面向B2B而非创意爱好者

下一篇：《AI图像十问——总结与展望》

Let's Make AGI Real

留下评论取消回复