AI应用巡礼 第43期:AI图像生成

《文字魔法师与游戏艺术家——Ideogram与Leonardo.ai的双重奏》

春天的多伦多,寒风还未完全退去。在这座冰雪初融的城市里,一群曾经在Google Brain研究所埋头苦读的科学家们,突然转身面向了一个古老而深邃的问题:为什么全天下的AI都学会了画画,却没人能写字?

这个问题听起来简单得可笑,却是压在整个AI图像生成领域心头长达数年的一块石头。Stable Diffusion、DALL-E、Midjourney——这些如雷贯耳的大名鼎鼎的模型,生成的图像绚烂多彩,惟妙惟肖,但一旦涉及文字,它们就像中风的病人一样,嘴巴歪斜,字形扭曲,有时候甚至生成出一些只有外星人才能识别的”鬼画符”。营销人员抓狂了,平面设计师绝望了,创业者想要做个Logo时都要”曲线救国”——先让AI生成一个大概的图形,然后再费力用Photoshop手动添加文字。

这就像一个武侠高手,剑术已臻化境,却不会写毛笔字,岂不令人遗憾?

第一幕:文字的诅咒与救赎

Mohammad Norouzi和他的团队在Toronto做的事情,用时髦的说法叫”降维打击”,用简洁的说法叫”换个思路”。他们没有去研究如何让模型更聪明地学习字形——那样做的人多如牛毛,效果都不理想。他们反而问了一个更根本的问题:为什么现有模型在生成文字时会失败?

答案是这样的:常见的AI模型在学习汉字、字母、数字时,其实是把这些看作某种”稀有的视觉特征”。训练数据中,平常的风景、人物、物体成千上万,但要让模型学会”这个像素排列代表数字7″,而且要用N种不同的字体、大小、角度都能识别,这样的训练样本反而相对稀缺。就像一个学生从未见过考试真题,却要在真正的考场上临时发挥——失败的可能性有多大,你想想就知道了。

Ideogram团队的解决方案,体现了一种科学家才有的优雅:他们从根本上重新设计了模型的训练方式和架构。这不是修修补补,而是建筑学意义上的重建——从地基开始。结果呢?当Ideogram 1.0于2023年问世时,整个业界用了同一个词来形容它:”breakthrough”。

生成的图像上,那些字——不管是中文、英文、阿拉伯文,还是乱七八糟的装饰性符号——都能清晰地浮现。不只是浮现,而是与周围的图像和谐共存,毫无违和感。就像一位钟表大师突然学会了微雕,不仅能打造精密的齿轮,还能在齿轮上用毫厘之力刻出诗句。

Ideogram迅速成为了”文字AI”的代名词。摄影师用它生成海报,文字精确到每一个边缘像素;品牌方用它快速迭代Logo概念;出版社用它为新书设计封面;甚至电商卖家也发现,用Ideogram生成的产品图配合精准的文案标签,转化率能提升三成。

第二幕:融资的故事与技术的进化

2024年,Ideogram完成了8000万美元的A轮融资,由a16z(Andreessen Horowitz,这是硅谷最传奇的风投公司,曾投资过Facebook、Airbnb、Slack)领投,Index Ventures跟投。这个数字意味着什么?意味着这家公司已经在私下估值中逼近独角兽门槛。

要知道,这家公司不过才成立两年多。创始人Mohammad Norouzi的简历写得跟悬疑小说一样:斯坦福博士、Google Brain资深研究员、在AI生成模型领域发表过数十篇论文。他和他的核心团队,基本上都是从Google那套人才库中”挖角”出来的。这意味着什么?意味着他们一开始就站在巨人的肩膀上,但选择了一条与Google不同的创新路径。

技术的迭代速度也很有故事性。Ideogram 1.0刚推出时,虽然文字生成能力惊人,但在其他方面(比如构图、光影、细节处理)还是有一定局限。于是在2024年,他们推出了2.0版本。这一版本不仅延续了文字优势,还在画质、物理效果、创意多样性方面都进行了深度优化。再到今年推出的3.0,已经能够与Midjourney、DALL-E 3这些”老大哥”在大多数场景下分庭抗礼,在特定领域(尤其是涉及文字和设计稿件)甚至有过之而无不及。

这个进化的过程,有点像一个学生从班级第二名,一步步冲向第一名。他知道自己的长处是什么(文字),所以先把这个长处磨得闪闪发光到无懈可击的地步,然后再用这个核心竞争力逐渐向其他方向扩展。这是一种”反向借力”的战略——不是试图样样通吃,而是用一个绝活来支撑整个生态。

除了文字生成,Ideogram还在悄悄推进Canvas功能——一个类似于Photoshop但为AI生成优化的编辑环境。用户可以在这里进行二次创作、局部修改、风格迁移。这意味着设计师们可以用Ideogram来完成更多的设计工作流程,而不仅仅是”快速生成初稿”。

第三幕:另一条路——游戏艺术家的梦想

如果说Ideogram走的是”精兵之路”(集中优势兵力突破一个方向),那么Leonardo.ai走的就是”大陆架”战略。

Leopold “JJ” Fiasson是个地道的澳大利亚人,也是个游戏迷和艺术爱好者。他看到AI在图像生成领域的爆炸式增长,第一反应不是”我要做一个通用的工具”,而是”我能为游戏行业做点什么”。这个想法听起来很具体,但实际上却抓住了一个巨大的市场机会——全球游戏产业每年花在美术资源上的投入数以十亿计,这些美术不仅要好看,还要一致性强

什么叫一致性强?打个比方:一个游戏里出现的角色,要在第1关、第10关、DLC资料片里都看起来像同一个人。同一件装备在不同光源、不同角度下要保持识别度。同一个NPC在战斗画面、对话场景、过场动画里要维持同一套美术风格。这对传统美术师来说早就是标配,但对于AI生成来说却是个噩梦——每一次生成都是一个新的”平行宇宙版本”。

Leonardo.ai在2023年针对这个问题推出了一个杀手级功能:Character Consistency引擎。它能够记住一个角色的”样貌档案”,然后在生成新的图像时确保这个角色保持高度一致。游戏开发团队不再需要让美术师手动调整每一张图,而是可以”一次定义,多次生成”。

这个功能一推出,就像在游戏美术社区扔了个深水炸弹。

Leonardo.ai的创始故事也充满了互联网时代的浪漫主义。JJ Fiasson在2022年决定创业时,正值生成式AI刚开始破圈的阶段。他没有像其他人一样选择从OpenAI的API开始,而是决定从零开始训练自己的模型。这个决定在当时几乎被所有人认为是”不理智的”——为什么不用现成的基座模型呢?为什么要自己花力气?

答案简单得让人措手不及:因为现成的模型都没法很好地处理游戏美术的需求

所以他们做了。2023年中期,Leonardo.ai发布了自己的基础模型”Phoenix”。这个模型从一开始就是为了游戏、概念艺术、角色设计这些应用场景而生。数据集中包含了来自ArtStation、DeviantArt等艺术平台的大量高质量美术资源,使得Phoenix模型对于绘画风格、光影处理、角色设计这些”专业美术师要求”有着原生的理解。

更有趣的是Leonardo.ai的商业策略:他们主动设计了一个非常慷慨的免费层级。在这个免费层级里,用户每月能获得相当可观的生成额度。这个策略看起来有点”自杀式”,但实际上却是个高明的市场策略——因为目标用户群体是谁?独立游戏开发者、美术系学生、自由概念艺术家。这些人往往没有什么商业预算,但他们的创意无限,而且一旦形成了使用习惯,当他们有了收入或者融资之后,自然会升级到付费版本。

好的免费层级就像是一个品质保证和长期投资。

第四幕:数据与证据

数据永远是最无情的裁判。Leonardo.ai到目前为止已经积累了1900万以上的注册用户——这个数字几乎相当于一个中等国家的人口。在这1900多万人中,很大一部分来自游戏、动画、数字艺术社区。他们用Leonardo生成概念图,设计角色,甚至直接用生成的内容作为游戏资源。

2024年,Leonardo.ai完成了3100万美元的A轮融资。虽然这个数字比Ideogram的8000万少,但考虑到Leonardo.ai的用户基数已经是Ideogram的好几倍(Ideogram虽然创意专业人士多,但绝对用户数并未公开披露的那么高),这个融资其实反映的是一种不同的发展策略:Leonardo走的是”用户量+社区活跃度”的路线,而Ideogram走的是”技术壁垒+高端用户”的路线。

两种路线都通往不同的终点。Ideogram的3.0版本最近的发布说明会上,创始人提到他们的目标是”让每个设计师都能用AI协助完成他们的专业工作”。这很谦虚,但也很坦白——他们知道自己擅长什么,也知道市场空间有多大。

Leonardo.ai则在推进一项更加雄心勃勃的计划:Motion Generation,即动画生成。目前还在测试阶段,但一旦成熟,这意味着游戏开发者不仅能生成静态的角色和场景,还能生成简单的动画序列。这会让独立游戏开发的成本从”需要至少一个美术师”降低到”一个美术师的几分之一”。

第五幕:他们各自的故事

说了这么多技术和数据,不妨讲讲这两个产品各自的”人设”。

Ideogram的气质是什么? 精英、专业、不折不扣的”黑科技公司”。它就像一把瑞士军刀——看起来很普通,但一旦你知道它能做什么,就会被它的精妙所打动。它的用户是什么类型?广告公司的创意总监、出版社的美术编辑、品牌方的设计团队。这些人一打开Ideogram,首先感受到的就是”专业感”——界面简洁但不单调,功能强大但不复杂,生成速度快但质量稳定。

有个有趣的细节是Ideogram的定价策略:他们没有设置特别便宜的免费层级,而是从一开始就定位于专业市场。这意味着每一个Ideogram的用户,多多少少都是带着某种”商业意图”来的。这进一步强化了整个社区的专业属性。

Leonardo.ai的气质是什么? 包容、创意、有点”朋克精神”。它的用户涵盖从14岁的高中生到60岁的独立游戏开发者。你可以在Leonardo的社区里看到《只狼》风格的日式剑士角色,也能看到赛博朋克风格的机器人,还能看到迪士尼风格的可爱小动物。这个平台几乎没有什么”禁区”,而是倾向于说”你想做什么就做什么,我们来帮助你实现”。

Leonardo的用户社区有一种”开源精神”的感觉。很多用户会分享他们的Prompt、自定义模型、美术风格参数,形成了一个互帮互助的生态。这种社区氛围在Ideogram上相对较弱——因为Ideogram的用户更多是”任务驱动”而不是”社区驱动”。

第六幕:他们的可能性

未来会怎样?这是最有趣的问题。

对于Ideogram: 他们的下一个前沿可能是”跨域应用”。文字生成既然已经做到了极致,那能否将这个能力延伸到其他需要精确视觉表达的领域?比如建筑设计(图纸上的标注)、医学影像(诊断文本)、工业设计(零件编号)。如果能做到,Ideogram就不仅仅是一个”设计工具”,而成为了一个”专业工具”,这会打开一个完全不同量级的市场。

另一个可能性是”直接的设计自动化”。想象一下,用户只需要提供一个简单的Brief——”我需要一个关于环保的海报,用绿色和蓝色,在中间放一个地球,周围用中文写上’保护地球 共筑未来’”——然后Ideogram不仅生成图像,还能输出适合不同平台的多种尺寸版本、色彩方案、排版变体。这样的自动化程度会让”无设计背景的人也能做出专业设计”。

对于Leonardo.ai: 他们的赌注很明确:游戏产业。如果Motion Generation成熟,如果Character Consistency进一步优化,如果他们能推出”一键生成游戏美术资源包”的功能,那么他们的市场空间会从”美术工具”扩大到”游戏开发全流程工具”。

但同时,Leonardo.ai也在探索一个风险更大但回报也更大的方向:多模态生成。不仅生成图像,还生成对应的音效、配乐、甚至动作捕捉数据。想象一个游戏开发者坐在电脑前说”我需要一个愤怒的龙”,然后Leonardo不仅生成龙的形象,还生成龙的咆哮声、翅膀拍打声,甚至龙的移动轨迹。这听起来很科幻,但在技术路线上其实已经能够看到轮廓了。

第七幕:市场的真相

但必须说一个有点冷酷的事实:这两个产品最后的赢家,很可能还是那些”大而全”的平台。Midjourney、DALL-E、Stable Diffusion这些”综合体选手”,虽然在某些细分领域可能不如Ideogram和Leonardo专业,但他们有着一种压倒性的优势:用户已经在那里了

就像当年谷歌地图虽然可能不如某些专业地图应用精准,但因为用户基数大、集成度高、更新快,最后还是成为了事实标准。同样的逻辑也会在AI图像生成领域上演——最后很可能是大平台集成了Ideogram和Leonardo的某些技术,而不是这两个专业工具最后一统江湖。

但这并不意味着Ideogram和Leonardo会失败。历史上有很多例子证明,专业工具永远有市场。Adobe在Photoshop之外还需要Lightroom、After Effects,不同的产品服务不同的需求。同样,即使未来所有大平台都能生成文字,Ideogram仍然会存在,因为它的使用体验、专业度、稳定性是不可替代的。Leonardo.ai也是如此——即使Midjourney也能生成游戏美术,但Leonardo专为游戏优化的模型、社区、工作流程,对于游戏开发者来说还是更贴切。

尾声:问题与答案

回到最开始的问题:为什么Ideogram能解决”文字问题”,而其他模型都失败了?

答案不在于更复杂的算法,而在于更深的理解。Mohammad Norouzi的团队花时间理解了这个问题的本质,然后用足够激进但又足够理性的方式重新设计了整个系统。这不是incremental improvement,而是paradigm shift。

同样的逻辑也适用于Leonardo.ai:JJ Fiasson没有试图做出一个”通用的”AI图像生成工具,而是深入到游戏产业,理解了游戏美术的真实需求,然后围绕这些需求构建了产品。

这是AI应用创业的一个重要启示:最成功的产品,往往来自那些选择了一个具体的、有明确痛点的细分领域,而不是试图去做”全能选手”的团队

Ideogram和Leonardo.ai就像是一对互补的兄弟——一个说”我要把文字写到极致”,一个说”我要把游戏美术做到极致”。他们各自在自己的领域内创造了无法被轻易复制的价值。

这也是我们这个时代最有趣的地方:AI的大浪潮正在推动整个世界,但最精妙的创新,往往来自那些选择了”小而美”而不是”大而全”的创业者和团队。他们像是在AI的大平原上开辟的两条专用铁路,也许不如纵横交错的高速公路宏大,但对于那些选择这条路的乘客来说,每一次旅程都精确、专业、无可挑剔。


快速档案 1:Ideogram

指标信息
创始人与背景Mohammad Norouzi领导的前Google Brain研究团队
总部位置加拿大多伦多
创立时间2023年
核心竞争力AI生成图像中的文字渲染能力——业界最优
主要产品版本Ideogram 1.0 → 2.0 → 3.0(持续迭代)
关键功能精确文字生成、Canvas编辑器、多语言支持
融资情况A轮:8000万美元(2024年,a16z领投)
估值阶段逼近独角兽门槛
主要投资者Andreessen Horowitz (a16z)、Index Ventures
目标用户设计师、营销团队、出版社、品牌方
应用场景Logo设计、海报、书籍封面、社交媒体素材、营销物料
市场定位专业设计工具、高端用户市场

快速档案 2:Leonardo.ai

指标信息
创始人与背景JJ (Leopold) Fiasson,澳大利亚创业者、游戏爱好者
总部位置澳大利亚
创立时间2022年底
核心竞争力游戏美术生成、角色一致性、基础模型Phoenix
自有基础模型Phoenix(专为游戏和概念艺术优化)
关键功能Character Consistency、AI Canvas、实时生成、Motion Generation(测试中)
融资情况A轮:3100万美元(2024年)
注册用户1900万+
商业策略慷慨的免费层级 + 付费订阅
主要投资者(信息部分未公开)
目标用户游戏开发者、独立创作者、美术师、动画师
应用场景游戏美术、概念艺术、角色设计、动画资源、NFT艺术
市场定位游戏产业美术工具、创意社区平台
社区属性高度活跃、互助共享的艺术创作社区

下一篇:《设计素材库与创意帝国的AI进击——Freepik AI与Adobe Firefly》



留下评论