MiniMax乘风破浪:巩固SOTA顶尖大模型公司地位

前不久,AI六小虎硕果仅存的大模型公司之一、位于上海的 MiniMax重磅发布多项更新:

  1. M1大语言模型以百万级上下文和MoE架构引领行业,实现极高训练效益,在数学、代码生成和长上下文处理等评测中表现优异;
  2. “海螺02”(代号“Kangaroo/袋鼠”)AI视频生成模型,支持文本和图像生成1080p电影级视频,画质与成本效果全球领先,并规划加入音效和唇形同步等新功能;
  3. MiniMax Agent 智能体平台则凭借多模态能力和MCP扩展,实现网页自动开发、深度分析、内容生成等自动化创作,在同类产品中独树一帜。

此外,公司在开源战略(Apache 2.0许可)、积分政策硬件与成本产品定价等方面动作频频,展示了其崇尚的开放共赢的企业文化。本文除了为您解读上述技术进展,还试图解析 MiniMax 的融资背景核心团队战略地位,对比阿里通义、智谱AI、字节豆包、百度文心、等国内竞品,呈现 MiniMax 在中国AI版图中的位置和特色。

1. 百万上下文与极致性价比:M1大型语言模型

MiniMax于六月中旬刚刚发布了全新的大型语言模型MiniMax-M1。它的两大特色令人瞩目:超长上下文窗口和极其低廉训练成本。M1原生支持100万Token的超长输入上下文,约为GPT-4的8倍,几乎把企业级LLM一次能处理的信息量推到极限。同时,M1在训练成本上实现突破:官方披露其训练总耗费仅约53.5万美元(约合人民币385.9万元),仅为国内竞品 DeepSeek-R1 的十分之一,几乎不可能任务!而GPT-4的训练成本据传高达数亿美元。换言之,MiniMax-M1做到了性能和成本的“双突破”:在提供行业最长上下文的同时,训练投入只是GPT-4的零头。

这一低成本高效能得益于M1的创新架构与算法设计。一方面,M1采用大规模混合专家(MoE)架构,模型总参数规模达4560亿,但每个Token推理时只激活约459亿参数。这意味着它通过门控机制仅调用最相关的一部分专家参数,从而显著降低计算开销。搭配自研的“闪电”注意力机制,M1在生成长文本时的计算效率极高:例如生成10万Token时,所需算力仅为DeepSeek-R1的25%。另一方面,MiniMax团队引入了名为CISPO的强化学习算法,通过更聪明的采样减少冗余训练,提升收敛速度。内部对比实验表明,CISPO相较字节跳动近期提出的DAPO算法收敛快一倍、性能优于DeepSeek早期使用的GRPO。这些技术创新让M1以更少计算资源达到更强效果。

低成本并未牺牲M1的性能。在多个权威基准上,M1进入了开源模型第一梯队

  • 数学与代码推理:在数学推理难题 AIME 2024 中,M1准确率达86.0%;在代码生成任务 SWE-bench Verified 中取得56.0%的分数。虽然这些成绩尚未超越最顶尖的闭源模型(GPT-4、Claude等)在数学/编程上的水准,但已领先多数开源对手。尤其在复杂软件工程和工具使用任务上,M1的表现优于开源的 DeepSeek-R1 和 Qwen3-235B 等大模型。不过在高难度数学和代码挑战中,M1的得分仍略逊于阿里Qwen3-235B-A22B、DeepSeek-R1以及Anthropic的Claude 4 Opus等模型。这一点体现了M1相对竞争对手的短板:通用复杂推理能力还有提升空间。
  • 长上下文理解:得益于百万级上下文,M1在长文本理解任务上优势明显。在OpenAI推出的MRCR长上下文评测中,M1仅稍弱于谷歌的Gemini 2.5 Pro,但效果好于其它模型。MRCR要求模型在极复杂、干扰众多的长文本中分辨多条近似信息及其顺序,这是对上下文记忆和分析能力的严苛考验。M1在此展现出强大的长文精读能力,与Gemini Pro的差距很小,坐实了“超长上下文王者”的名号。
  • 智能体工具使用:M1还原生支持结构化函数调用(function calling),可与各类插件工具结合。在Agent智能体相关的评测中,M1表现突出。例如航空业场景的TAU-bench(工具使用基准) 中,MiniMax-M1 40k版本击败所有开源和闭源对手,展现了一骑绝尘的多步骤推理、调用工具能力。零售场景下则与DeepSeek-R1旗鼓相当。这表明M1不仅能“看懂”长文本,还善于调用工具、拆解任务,在复杂工作流中充当可靠的AI助手。

总的来看,MiniMax-M1已跻身一线开源大模型。尽管与GPT-4、谷歌Gemini等顶级闭源模型相比,在高维度理解和细腻语言推理上尚有差距,但M1以开源身份实现了接近主流水平的性能。而在特定场景(长文本、多Agent协作等)下,甚至展现出超越巨头模型的潜力。

性能与成本的平衡策略:MiniMax在M1上采取了“关键能力超配”的产品策略,即不追求面面俱到的万能模型,而是突出超长上下文、低计算成本、易部署等优势。M1完全开源并使用 Apache-2.0许可,允许商用、修改和永久免费使用。这使其对企业极具吸引力——任何公司都可将M1据为己用,无需担心版权限制。同时,M1提供40k 和 80k Token输出上限两个版本,方便用户按需权衡速度、成本与性能。输出上限越高,推理步数越多,结果更完整但也更耗时,MiniMax把这种选择权交给开发者。例如,对于一般对话应用可选40k版本以提高响应速度,而处理复杂报告、代码生成则可选80k版本追求极致准确。

部署与集成:M1针对实际应用做了周到设计。模型已适配主流推理框架(如 vLLM、Transformers),方便快速集成进现有系统。更令人惊喜的是,M1内置了一系列多模态插件,包括网络搜索、视频生成、语音合成等功能。开发者几乎开箱即用这些扩展模块,迅速打造具备“智能体”能力的产品。这让M1不仅是“另一个大模型”,更像是面向未来复杂任务形态的AI基础设施

MiniMax-M1与主要竞品对比:

在国内“六小虎”大模型中,MiniMax-M1与百度文心、阿里通义、智谱GLM、字节豆包等各有千秋:

  • DeepSeek-R1:R1此前以支持64k上下文著称,而M1将其提升8倍至100万,显著超越R1在长文本领域的上限。同时M1在软件工程、Agent工具等任务上优于R1。不过在数学、编程硬实力上,R1当前仍稍胜一筹。训练投入方面,R1估计耗资约500万美元,M1仅为其一成。两者在性价比上形成鲜明对比:M1以更低成本达到接近R1的综合能力,显示出后发优势。
  • 阿里Qwen(通义千问):阿里巴巴的Qwen系列开放了中小参数模型(7B、14B)以Apache许可供社区使用,在2024年以高多项指标排名领先。Qwen3-235B等内部版本体量巨大,在数学推理等基准上压制M1。但M1凭借MoE架构,在长上下文解析和任务规划上更胜一筹。两者体现了不同路径:阿里强调通用理解和逻辑,MiniMax突出长文本和工具协同。值得一提的是,阿里也开源了多智能体框架AgentScope(下文详述),但MiniMax直接把多模态插件融入模型,降低了使用门槛。
  • GPT-4 与 Claude 4 Opus:作为OpenAI和Anthropic的旗舰,GPT-4和Claude 4 Opus仍在综合能力上领跑。GPT-4目前提供最大128k上下文版本,M1在上下文长度上实现赶超(100万 vs 128k)。在高度复杂指令和细粒度常识上,GPT-4/Claude等闭源模型表现更稳健,但代价高昂——GPT-4训练成本上亿美元,使用费用也很高。相比之下,M1追求80%性能 + 20%成本的实用平衡:以开源方式提供“够用且便宜”的通用模型。在特定任务上通过插件或调用外部模型,M1甚至可部分弥补自身弱项。这种开放融合的思路,或许正代表着中国AI公司差异化竞争的新范式。

M1的开源发布和反响

MiniMax-M1于发布当日凌晨在GitHub开源,成为全球首个开源的大规模MoE推理模型。社区迅速给予热烈反馈,不少开发者将其与开源界“天花板”如Llama2等比较,发现M1在长文理解、代码执行等方面展现出明显优势。M1的Apache 2.0开放也被视为中国厂商拥抱开源生态的重要里程碑,为行业提供了可商用的高性能基座。在模型卡上,MiniMax团队还附带了详细的技术报告和使用教程,降低了门槛。这一切使得短时间内,M1模型及衍生应用在HuggingFace等平台快速传播开来,许多国内外项目开始基于M1进行二次开发。总之,MiniMax-M1超长上下文高性价比的硬核实力,成功在2025年大模型赛道上闯出一条极具辨识度的道路。

2. 电影级AI视频生成:海螺02模型 (Hailuo 02 / Kangaroo)

海螺02(Hailuo 02,内部代号“袋鼠/Kangaroo”)是MiniMax于2025年推出的新一代AI视频生成模型,延续并升级了前代“海螺01”的能力。该模型专注于文本到视频 (T2V)图像到视频 (I2V)生成,可凭借一段文字或一张图片,合成出逼近真实电影画面的短视频。海螺02在Artificial Analysis视频模型榜上名列全球第二,仅次于字节跳动的Seedance 1.0,并领先谷歌的Veo 3。这标志着中国AI在视频生成领域已经达到世界领先水准,海螺02正迅速成为追求电影级视觉效果创作者的首选工具。

核心功能与效果:

  • 高清分辨率与画质:海螺02能够生成1080p 全高清分辨率的视频画面。每一帧的细节和一致性令人印象深刻,极大减少了AI视频常见的抖动和失真问题。同时,模型对环境物理效果的渲染尤为突出,例如水流、雾气、光影、天气等效果栩栩如生。这些高保真特性使海螺02足以胜任社交媒体视频、产品宣传甚至原型短片等场景的画质需求。据悉,海螺02生成的人物动作也更加流畅自然,例如某演示视频中一位女士对镜涂口红的动作就相当真实,毫无违和感。
  • 优秀的文本理解:相较一般的视频模型,海螺02对提示词的自然语言理解能力更强,尤其擅长把握情绪和美学指令。例如输入“一名宇航员在雨中穿过东京霓虹灯小巷”,海螺02能生成一个细节丰富、氛围感极强的赛博朋克短片,雨夜氤氲、灯光反射、宇航服质感都处理得惟妙惟肖。这得益于MiniMax在多模态训练上融入了大量情感和风格相关的数据,使模型具备“读懂”抽象描述并转化为视觉元素的能力。海螺02可根据提示词一个宇航员在雨中穿过东京霓虹灯小巷所生成的赛博朋克风短片场景示例。一句简单描述即可产出细节丰富的电影级画面,展示了海螺02对氛围和光影的出色掌控。模型对水面反射、雨滴等物理效果的呈现尤为逼真。
  • 导演级控制工具:海螺02开创性地引入了一套“导演工具包”,让用户通过特殊提示词对镜头运镜和视角进行控制。例如,可以在提示中加入「向右走」「向下平移」「固定镜头」等关键词,模拟摄像机的运动;使用「鸟瞰图」「特写」「变焦拉远(dolly zoom)」等词语,指定镜头角度和变焦效果。此外,海螺02支持场景锚定功能,让生成视频中的物体/主体在连续镜头中保持相对位置,从而保证叙事连贯,不会每帧“乱跑”。这些工具使得用户宛如真实片场的导演,可以细腻地操控AI摄像机。这在传统AI视频生成中是没有的突破——以往大多模型只能根据一句话盲生成,有了导演指令后,海螺02的输出更具专业质感和故事性。
  • 多风格创意与应用:海螺02擅长多种美术风格的视频创作,尤其在赛博朋克都市奇幻场景超现实梦境等主题上表现卓越。例如,它可生成“被洪水淹没的未来东京”或“巨龙飞越发光瀑布”这类充满想象力的场景。因此应用范围非常广:从社交媒体短视频、艺术电影片段,到品牌广告蒙太奇、音乐可视化作品,都能驾驭。很多设计师和营销人员已将海螺02用于制作炫目的产品宣传片创意概念视频,极大降低了传统电影制作的门槛。

使用体验与流程:MiniMax已将海螺02集成到海螺视频 (Hailuo Video)平台和合作方Flux-AI等应用中。用户无需编程,只需简单几步即可生成视频:

  1. 登录海螺AI官网或Flux等支持平台,进入AI视频生成模块。
  1. 选择海螺02模型,输入提示词描述想要的视频画面。可将复杂场景拆分成多个简洁句子,以充分利用导演指令。例如:场景、角色、风格氛围、镜头动作分别描述。
  1. 点击生成后,模型开始渲染。渲染5秒片段官方宣称约2分钟完成,但根据用户实测通常需要10~20分钟才能得到高质量结果,具体取决于画面复杂度。相较即时出图的AI绘画,视频生成的计算量显著更高,这也是行业普遍现状。
  1. 渲染完成后可在线预览视频,并选择下载。免费用户通常获得带水印的视频,订阅高级计划则可获取无水印高清版本。

由于AI生成视频目前在渲染速度时长上仍有局限,海螺02一次输出的视频片段通常在5-10秒左右。对于需要更长镜头的创作,可以利用视频拼接和延长技术,将多个片段衔接或使用模型的“拓展延长”功能逐步合成较长画面。事实上,澎湃新闻的实验团队就曾采用“图生图+图生视频”的两段式思路,并借助延长功能,实现了360°旋转长镜头的AI视频片段。这表明通过巧妙拆分和后期处理,AI也能产出超过单次时长上限的复杂视频。

优势与局限:总结海螺02当前的能力:

  • 主要优势:画质排名全球前列:在AI视频电影级生成领域,海螺02的效果全球第二,仅次于字节的Seedance。它以优异的视觉保真度和丰富的创意控制脱颖而出,是首个提供完善镜头指令的模型。生成的视频在艺术性和细节上远超一般竞品,堪称“AI导演工具”的一次飞跃。国内媒体评价其“物理水准超神”,对诸如泪珠滑落、头发飘动等细节都处理得惟妙惟肖。同时,MiniMax宣称海螺02在成本效率上打破了全球记录——据官方数据,“1000元可生成1.7万条1080P视频”,单位成本远低于业内平均。这一效果-成本比使其对中小创作者极具吸引力。
  • 主要局限:(1)渲染耗时较长:如前所述,生成一个几秒片段可能需十几分钟,这对于追求即时反馈的工作流程来说不够理想。在时间敏感的项目中,海螺02目前还难以替代专业即时渲染软件的效率。团队也在优化模型推理速度,例如压缩模型规模、利用更强算力等。(2)片长受限:单次输出时长较短,一般不超过10秒。尽管可通过拼接延长,但对连续剧情的表现仍有限。这意味着海螺02目前更适合短视频、片段式内容,对于完整叙事的长视频(如一部短片数分钟)还无法一蹴而就。(3)声音与同步:现阶段海螺02生成的视频不包含音频,需要后期自行配乐或配音。同样地,如果视频中有人说话,模型并未生成与之对应的口型或对白音轨。针对这一点,MiniMax已具备语音克隆技术(见下文多模态平台),未来有望将声音合成唇形同步集成到视频模型中,实现一条指令同时生成“声音+画面”协调的影片。这被视为下一阶段的重要升级方向,业界也在探索让AI视频直接输出配音、音效等完整内容。

竞品比较:在全球AI视频领域,海螺02面临多家强劲对手。以下通过表格简单对比海螺02与几款国内外代表性模型:

模型 全球排名 特点优势 不足限制

Seedance 1.0(字节跳动)

擅长长篇视频,渲染稳定性高提示词创造力相对不足

海螺02(MiniMax)

电影级短片视觉效果最佳,创意控制丰富,渲染有延迟,单片段时长受限

Google Veo 3

渲染速度快,风格输出简洁清晰,艺术自由度较低,缺乏复杂创意

Runway Gen-2(美国)(知名工具)

主打影视化风格,多场景自然运镜,分辨率有限(基础720p),需付费去水印

Pika Labs(美国)

生成速度快(1分钟左右出片),提供多种特效,分辨率较低,片段长度有限;控制精细度一般

OpenAI Sora

据传质量极高,逼真度接近实拍,未正式开放,推理成本极其昂贵

(注:Seedance为字节跳动即将推出的AI视频模型,即梦3.0 Pro海外版;RunwayPika为国际热门商用工具;SoraOpenAI内部演示的前沿模型。)

从上面的比较可以看出,MiniMax海螺02与字节、谷歌的模型各有千秋:海螺的画质和创意在短视频上称雄,但渲染效率稍逊;Seedance稳健持久但想象力略弱;Veo3快速简洁但欠缺艺术性。与国外知名的Runway和Pika等工具相比,海螺02在分辨率和真实感上具有明显优势,可谓以质取胜。值得一提的是,快手的可灵2.0也是国内一支劲旅,它与海螺类似注重影视级效果,并邀请知名导演合作AIGC短片,引发业内关注。澎湃新闻报道称,海螺AI和可灵AI等国产产品已凭借高质量和稳定性在海外走红,轮流登上“AI视频之王”的宝座。这反映出中国在AI视频领域的厚积薄发,正逐步赢得国际认可。

多模态平台与商业模式:2025年,MiniMax围绕海螺AI打造了一个多模态内容创作平台。该平台不仅涵盖文生视频图生视频,还提供语音克隆图像生成音频处理等一系列工具,形成从视觉到听觉的AI创作闭环。例如,用户可以上传10-60秒的语音样本,海螺AI就能克隆出该声音,用于配音并可调节情绪。在图像方面,平台内置了电商人像优化、姿势编辑等本地化功能模版,方便内容创作者快速处理素材。

MiniMax在海螺产品上采用会员积分制。新用户可免费体验部分功能,但高级功能及高产能使用需要购买会员。2025年6月推出的新版会员定价达年费1万元以上(折合每月千元级),此举引发了一些争议。许多早期拥趸(如高校学生、非营利内容创作者)表示价格过高难以负担,和早期宣传的“免费好用”落差较大。甚至有用户抱怨,由于模型升级调整,一些过去风靡的经典形象(如社区UGC创作的“蓝色月半猫”角色)无法继续生成,审美上有所倒退。这些争议表明,在技术突飞猛进的同时,AI初创也面临商业化与用户生态的平衡难题。MiniMax随后表示会考虑推出更灵活的分层定价方案(如轻量版套餐),并优化模型稳定性和保持经典风格,使社区创作与盈利模式找到新的平衡点。

未来展望:面向未来,海螺团队的研发重点包括:进一步提升生成成功率(减少多次“抽卡”的不确定性)、集成音频输出(如背景音乐、环境音效自动生成)、角色唇动与对白同步延长单次生成时长等。这些功能的实现将使AI视频从“无声短片”进化为“有声对话的完整场景”,真正朝着“AI电影”的梦想迈进。Runway的CEO曾大胆预测:“明年或将见证首部AI主导创作的电影诞生并问鼎奥斯卡”。虽然听起来超前,但以海螺02为代表的顶尖模型,正在一步步突破技术瓶颈,让AI创作长片从科幻走向可能。也许在不远的将来,我们将在大银幕上看到由AI导演、AI演员共同完成的影片,而MiniMax很可能是推动这一变革的中坚力量之一。

3. 通用智能体平台:MiniMax Agent的多模态与协作

产品概述:MiniMax Agent是MiniMax在2025年6月发布的通用AI智能体平台,被内部誉为“最强数字员工”。它可以视为ChatGPT的“升级版同类”,但能力范围远超聊天:Agent不仅能理解和生成文本对话,还具备多模态输入输出编程执行网页生成工具调用等综合技能。一句话,它设计得就像“一个可靠的队友”——能够接受复杂任务目标,自主规划多步骤方案,拆解子任务逐一完成,最终交付高质量结果。MiniMax Agent已全面开放Web端试用,无需邀请码,新用户注册即送1000积分。其定价采取订阅制:月基础套餐19元(约15个任务配额),专业套餐69元(约60个任务),均折合每任务仅几元。这样的价格相对Agent的强大功能,可谓极具竞争力,降低了普通人使用AI助理的门槛。

主要功能与特色:

  • 网页编程与应用开发:MiniMax Agent 内置了强大的代码编写和调试能力。用户可以直接让Agent生成可用且可交互的网页应用,甚至网页游戏。据报道,Agent可以在3分钟内构建一个“在线卢浮宫”网站:包括页面布局、美术风格、交互逻辑等,均由AI自动完成。而且不同于简单的静态页面,Agent生成的网页拥有复杂组件和跳转逻辑,还能模拟用户操作进行全面测试,确保最终交付的网页无Bug。连界面设计的细节和用户体验,Agent都相当注重。这一点是传统大语言模型所做不到的突破——MiniMax Agent真正扮演了“全栈工程师”的角色。从代码到UI到测试一条龙,让没有编程经验的人也能创造出精美的网站。
  • 多模态理解与生成:Agent支持文本、长文档、图像、音频、视频等多种输入格式的理解。这意味着你可以喂给它一段视频、一本PDF、几张图片,然后提问或让其分析综合。输出方面更是丰富多彩:除了文本回答,Agent可以直接生成图片合成音频制作PPT、甚至剪辑动画!例如,在PPT制作任务中,MiniMax Agent专门内置了PPT子智能体,能一键生成带排版和动画效果的演示文稿。经测评,Agent生成的PPT不仅内容完整,而且视觉设计精美,包含翻页过渡和元素动画等细节,远胜其它Agent简单堆砌内容的效果。又如在音频方面,借助MiniMax强大的语音模型,Agent可合成拟真的解说音频。在一个案例中,Agent构建了虚拟故宫之旅网页,不仅配有图文介绍,还自动生成了带感情的音频讲解,由“文物拟人”口吻讲故事,极富沉浸感。更惊人的是,这些音频可以在生成的网页中即时播放——说明Agent生成的不止是死板的HTML页面,而是完整多媒体交付物
  • MCP扩展工具集成:MCP全称“模型上下文协议”(Model Context Protocol),是MiniMax推出的扩展机制。Agent在输入框中通过@符号即可无缝调用一系列外部应用/插件。目前 MCP市集中已有几十种工具,比如GitHub/GitLab代码托管、Slack即时通讯、Figma设计、Feishu(飞书)办公、地图导航、表格处理等。用户只需一句话,就能让Agent使用这些第三方服务完成复杂操作。例如:“@Figma 设计一个海报并导出PNG”,“@高德地图 提取公司附近餐厅地址制作Excel”。MCP的无缝集成使Agent仿佛具备API调用的超能力,把办公生活中的繁琐任务一网打尽。相比OpenAI插件需要逐个调用,MiniMax Agent将工具调度融合在统一上下文中,一键直达,这极大提升了Agent解决实际问题的覆盖面和深度。
  • 自动化多步任务规划:面对一个复杂需求,Agent能够自行规划步骤、调用子Agent协作完成,体现出很高的自主性和鲁棒性。例如一位测试者要求:“阅读这份M1模型的技术报告,调查其技术路线相对于现有研究的先进之处,转化为一段播客音频,并生成一个带夜间模式的播客网页”。这样一个涉及长文理解→技术调研→音频生成→网页生成多环节的超复杂任务,Agent处理起来游刃有余:它先调用阅读子模块提取报告要点,再组织成播客脚本,合成语音音频,最后编程生成网页呈现音频和内容,甚至贴心地加上了夜间模式切换。整个流程无人干预一次性完成,最终播客网站功能丰富、质量合格,仅在少数细节上有瑕疵。这充分展示了MiniMax Agent在任务拆解、子Agent协同上的卓越设计。内部消息称,为保证复杂任务节点的输出质量,团队为诸如“深度调研”“PPT生成”等场景预先设计了专家级子Agent供主Agent调度,使其各司其职。这种模块化协作正是Agent成功完成高难度任务的关键因素之一。

对比同类产品:当前业内也有其他公司推出类似的通用智能体,如OpenAI的“GPTs”(指用户可定制的GPT助手)、Anthropic的Claude Artifacts(Claude 4 Opus中引入的新功能,可生成代码片段、模拟实验等“人工制品”)、阿里云开源框架AgentScope等。MiniMax Agent在不少方面形成了差异化优势

  • 多模态&输出形式:OpenAI的GPT-4虽然有图像输入能力,但输出主要还是文本,借助函数调用才能间接生成图片或代码文件。而MiniMax Agent直接内置了图生图、语音合成、视频生成等多模态输出。这意味着Agent可以一站式产出图文音频并茂的结果,这是OpenAI GPT系目前不具备的能力。Claude 4的“Artifacts”概念虽然展示了生成模拟环境、小游戏等可能,但其本质也是生成代码或配置,再需要人去运行。MiniMax Agent则自己就是运行环境:它生成网页就立即可用、生成音频就能播放。这种端到端交付的体验,对于用户来说无疑更直观高效。
  • 自主性与复杂任务: Claude Opus 4强调通过主Agent+子Agent多智能体架构提升成功率。AgentScope则提供了开发框架,让有编程能力的团队定制多Agent协作。相比之下,MiniMax Agent把多Agent调度的复杂性封装在产品内部,对终端用户呈现的是一体化的智能助手。无需编写Agent逻辑,普通用户通过自然语言就能驱动Agent完成复合任务。这种开箱即用的自主性体验,目前在OpenAI或AgentScope上还不完善。事实上,有评论称不少标榜Agent的产品只是“演智能”,看似自动其实需人工引导。MiniMax Agent以一系列实测结果证明了自己的“真本事”,在真实复杂场景下交出优秀答卷。例如,某用户分别用Manus、Genspark等Agent做旅游PPT,一个敷衍一个内容浅,而MiniMax Agent产出既美观又详实,给人“眼前一亮”。
  • 插件生态与扩展性:OpenAI的插件生态主要面向英语环境且审核严格,上线节奏较慢。AgentScope虽开源但需要开发者有技术背景。MiniMax Agent依托MCP,很快积累了对接企业常用工具的丰富插件(钉钉、飞书、Git、Office套件等),且通过持续训练让模型熟悉这些工具的操作。正如业内分析所言,MiniMax在“模型能为生产力做什么”上远见卓识,提前布局了Agent在办公协作上的落地。这使其产品对于国内用户尤其是企业团队,有着开箱即用的本土化优势。你可以让Agent读取公司内网资料、跨应用搬运数据,无缝融入现有工作流。这方面OpenAI和Anthropic的产品在国内是鞭长莫及的。

综上,MiniMax Agent以其全能多模态(会写会画会编程)、自主多步执行(像资深助理一样思考行动)以及无缝工具扩展(上下文内灵活调用外部应用)的特点,树立了国内AI Agent的新标杆。不少业内人士将其与微软的Copilot X体系、Anthropic的多Agent系统相提并论,认为MiniMax Agent充分展示了中国团队在AGI应用层创新的实力。在2025年被称作“Agent元年”的大环境下,MiniMax通过M1大模型+Agent平台的组合,给出了属于自己的答卷:“让AI真正触手可及,为生产力直接买单”

4. 开源文化与产品生态:MiniMax的最新动态

2025年,MiniMax不仅在产品技术上突破,更在开源战略商业生态上做出重大布局,展现出与大厂截然不同的打法。

全面开源与Apache协议:MiniMax坚定奉行“大模型开源”路线。M1模型选择以Apache 2.0协议开源发布,允许任何个人或企业免费使用、修改、商用,无需回溯授权。这一举动在国内AI公司中并不多见——很多头部企业(如百度、商汤等)的大模型要么不开源,要么以限制多多的许可证发布。MiniMax此举赢得开发者社群的广泛好评,被赞为“业界清流”。不仅M1,实际上早在2025年初MiniMax就开放了MiniMax-01系列模型的代码和权重,涵盖多模态Transformer模型等,为Agent平台的出现埋下伏笔。这种技术共享的文化,使得MiniMax在AI圈积累了一批铁杆支持者,也提升了公司在学术和产业界的声誉。正如创始人闫俊杰所说:“我们希望打造的是AI时代的基础设施,让人人都能用得起、用得爽的大模型。” M1以Apache开源,在战略价值上甚至超越技术本身——它成为任何一家企业都可以‘据为己有’的大模型。这无疑有助于MiniMax生态在各行各业开花结果。

硬件投入与成本控制:在算力资源方面,MiniMax并未像OpenAI那样拥有自建超大算力集群,而是精打细算地利用有限资源取得最大成果。M1模型的训练使用了512块英伟达H800 GPU(相当于中国版A100卡)持续3周完成。通过MoE和RL算法优化,他们把原预计数百万美元的成本压缩了一个数量级。MiniMax的技术团队在算力优化上经验丰富——CEO闫俊杰和合伙人周彧聪都曾是世界超级计算机竞赛冠军背景出身。因此,公司在调度GPU、提高并行效率方面有独到的方法。硬件配置上,MiniMax也在寻求多元合作:据悉他们与国内云服务商、芯片厂商都有接触,探索适配国产GPU(如寒武纪、天数智芯)的可能,以降低对英伟达的依赖。这些努力都是为了一个目标:用最经济的硬件代价打造高性能AI。事实证明,M1和海螺02的发布都体现了“小团队撬动大模型”的成本优势。

产品可用性与服务体系:MiniMax现有产品线包括:To C端的AI伴侣应用(海外Talkie、国内星野APP),以及To B/开发者的大模型API服务、Agent平台和多模态工具套件。值得关注的是,MiniMax采取了2B2C并举的策略。一方面,其官网提供Chat.Minimax.io在线聊天体验和Agent.minimax.io平台试用。个人开发者可以直接注册调用M1接口,体验不限量免费使用。另一方面,对于企业客户,MiniMax开放了API付费服务和私有部署方案。M1模型在HuggingFace上线后,也方便企业下载自host。收费模式上,M1 API采取按Token计费,并根据上下文长度分档定价。例如,输入长度0-32k时每百万Token收费0.8元,输出每百万Token 8元;32k-128k区间输入1.2元/百万,输出16元/百万;128k-1M超长档输入2.4元/百万,输出24元/百万。相比之下,竞品DeepSeek-R1在促销时段价格更低,但标准时段下M1的短上下文输入费用约为R1的80%、输出为其50%,而在128k以上长上下文区域则是M1的绝对优势(因为R1不支持那么长的输入)。这种精细分档的定价模型,让不同需求的用户各取所需,也体现MiniMax对速度-成本-精度平衡的重视。

对于海螺AI,虽然C端会员涨价引发争议,但面向企业的合作依然在推进。MiniMax正在与传媒、影视、广告公司探讨定制版视频模型的授权,以项目计费等灵活方式提供服务。这种B端收入有望弥补C端免费或低价策略的不足,形成商业闭环。积分政策方面,MiniMax各产品线(聊天、Agent、海螺)或将实现积分通用,用户可以自由分配购买的点数来使用不同服务,从而提升用户粘性和平台效用。

开源生态与积分激励:MiniMax还积极构建社区生态。例如,面向高校和研究机构发起“MiniMax开源贡献者计划”,鼓励基于M1和Agent开发插件、扩展模型能力,优秀项目给予积分或赞助奖励。在字节跳动宣布投入千万资金建立“豆包大模型基金”支持学术研究之际, MiniMax也在用自己的方式联结开源社区。开放、合作、低门槛,是MiniMax技术文化的重要标签。和某些大厂的“假开源”不同,MiniMax的代码仓库真正有人在维护,issue有人回应,充分体现了技术驱动公司的风范。

总结来看,MiniMax在2025年的系列动作,从开源M1、发布Agent到调整会员策略,都指向一个核心理念:以用户和开发者为中心。他们通过Apache开源赢得开发者,通过高性价比产品吸引用户,通过不断迭代优化来应对争议。在硬件和成本上精打细算,在商业模式上大胆探索,这种务实而灵活的作风,使MiniMax在巨头夹击的环境中依然保持了快速成长。接下来,公司在完善产品矩阵、平衡免费与收费、扩大生态伙伴等方面,仍有诸多挑战。但可以肯定的是,MiniMax已在中国AI版图上站稳脚跟,其开放创新的路线为业内注入了一股新风。

5. 背景与定位:融资、团队及国内AI生态比较

融资与估值:MiniMax成立于2021年12月,仅三年已成长为中国AI领域估值最高的创业公司之一。2024年3月有消息称,阿里巴巴将领投MiniMax新一轮融资6亿美元,投后估值超过25亿美元。此后,又有多家顶级VC和产业基金注资,公司估值据传已突破30亿美元。如此高的估值,源于MiniMax在AI大模型和应用上的先发优势和市场潜力。融资资金主要用于招募顶尖人才、采购算力以及持续研发投入。值得注意的是,在监管政策仍收紧的情况下,MiniMax能获得阿里等巨头青睐,说明大厂也将其视为AI赛道的重要盟友而非纯粹竞争对手。阿里领投也被解读为一种战略投资,或将推动阿里云与MiniMax在算力、数据上的合作。从资本层面看,MiniMax已是名副其实的独角兽,充裕的资金弹药为其技术长跑提供了保障。

核心团队与技术文化:

  • 创始人闫俊杰:MiniMax CEO,毕业于中科院自动化所,曾任商汤科技副总裁、研究院副院长,是国内计算机视觉和深度学习领域的知名专家。他曾负责商汤深度学习工具链和通用智能技术,发表顶会论文100余篇,被引用过万次。2021年底他毅然从即将上市的商汤离职创业,创立MiniMax稀宇科技。“MiniMax”名字源于博弈论的极小化极大算法,寓意在最坏情形下寻求最优解。闫俊杰一直非常低调,很少公开露面。据采访透露,他认为大模型创业不能套用移动互联网的打法,要踏踏实实解决实际问题。这种务实技术信仰深深刻在MiniMax文化中。
  • 联合创始人周彧聪:北航毕业,商汤早期员工,担任过研究院算法主管。他学生时代就荣获国际超算竞赛冠军,多次参与CVPR/ICCV比赛并拿奖,与闫俊杰有深度合作经历。周彧聪在MiniMax主要负责算法架构和训练平台搭建。M1的大规模RL训练框架、MoE调度等都离不开他的团队贡献。有媒体称他是公司内部“技术大拿”和文化塑造者之一——注重学术严谨,又鼓励创造性 hacking。
  • 技术合伙人杨斌:同样毕业于中科院自动化所。曾就职Uber ATG自动驾驶研究,后来在初创公司Waabi任职,专长于机器学习在自动驾驶等复杂系统中的应用。杨斌在MiniMax负责多模态和场景落地。比如海螺AI的多模态融合、Agent的子模块协作,都有他的身影。他被视为将前沿研究转化为产品的关键人物,体现了MiniMax团队“研以致用”的风格。

除了核心创始团队,MiniMax还有大量来自清华、上交、MIT等名校及Google、Microsoft、Meta等名企的青年才俊。据悉,公司技术人员占比超过80%,很多人拥有NLP、语音、CV、图形学等多个领域的研究经验和专利成果。这种跨领域融合的团队结构,让MiniMax在通用人工智能(AGI)探索上如虎添翼——正因人才覆盖全面,公司才能同时推进大语言模型、图像视频生成、语音合成、强化学习等多条战线,并将它们集成在Agent这样复杂的产品中。团队文化方面,MiniMax推崇务实创新,鼓励“快跑试错”。他们在2024年就提出了自己的AGI愿景规划:关注模态内容、多模态上下文、模型互调、任务复杂度、智能体协作五大核心。如今M1、海螺、Agent正沿着这五个方向逐步落地,这种前瞻性在国内初创中十分难得。

在我国AI生态中的地位:MiniMax被业界归为我国“大模型六小虎”“五虎”之一。这些“虎”或“小龙”通常指在大模型领域有突出技术和产品的创业公司,与传统互联网巨头分庭抗礼。除了MiniMax,常被提及的还有:月之暗面(推出Kimi系列模型,专注开源代码模型,某核心人物来自前微软),智谱AI(清华系公司,产品有GLM、ChatGLM系列,在中文对话上颇有积累),百川智能(北京团队,开源了Baichuan系列模型,以训练高效著称),面壁智能(主攻认知+推理,产品为紫东太初多模态模型),以及阿狸湾(想象的名字)等。如果算上字节跳动(豆包团队)和BAT这些大厂,中国AI大模型格局可以说是群雄逐鹿

MiniMax的战略位置颇为微妙。一方面,它和这些初创伙伴一样,站在巨人的夹缝中寻求突破,以更敏捷的创新撬动市场。另一方面,它又因为手握热门C端产品(AI伴侣Talkie/星野下载量很大)以及出色的B端模型能力,而成为各大厂争相拉拢或对标的对象。百度文心(ERNIE Bot)作为老牌玩家,在2023-2024年率先拿到牌照上线服务。但文心走的是闭源商用路线,更倾向服务企业及整合到百度自有生态(如搜索、办公)。相比之下,MiniMax通过开源和开放API,迅速积累了开发者资源,其M1模型的活跃调用量在国内开源模型中名列前茅。据字节披露数据,他们豆包模型每日Token调用量千亿级。MiniMax未公布具体数值,但考虑到其AI伴侣应用曾在全球斩获1100万月活、豆包助手宣称月活2600万等情况,MiniMax整体用户触达规模应已在数千万量级。这在创业公司中非常亮眼。

阿里通义·千问相比,MiniMax更专注C端和开发者社群,而阿里由于to B基因更强,主要服务政企客户,输出能力给阿里云。两者在2024年底还有过团队人事交流——据36氪报道,阿里达摩院的一些人才流向MiniMax,显示后者对顶尖人才的吸引力。而阿里也通过投资关系与其绑定,形成某种生态互补。

字节跳动豆包团队,则是MiniMax当前最直接的竞争对手之一。豆包主推多模态大模型家族,2024年底宣布月活2600万、推出个性化定制智能体,并开源了一项MoE优化技术DAPO提高训练效率1.7倍。他们在火山引擎云上提供模型服务,定价相当激进:1元钱可购买125万Token的调用。按照这个价格,处理128k上下文长文每千Token输出仅需0.005元,折算百万Token约5元——比MiniMax M1第三档输出价(24元/百万)低了近4倍。这种价格战式策略显示出字节强大的资本与算力实力。MiniMax面对这样的对手,选择以技术和开源见长,与之错位竞争。豆包强调其模型多模态思考能力,号称高考数学可得144分,综合实力超Llama 2等。但MiniMax M1在实际复杂应用中展现的效果,并不逊色;更何况MiniMax还有海螺视频、Agent智能体这些豆包暂时没有推出的爆款应用。因此,两者可以说各有优势领域:字节凭借数据和资金优势,在模型底座上猛追;MiniMax凭借创意产品和开源社区,在用户心智上占领先机。长期看,不排除双方在某些方面合作,毕竟字节投资MiniMax传闻也曾有耳闻。不过竞争格局下,MiniMax需要持续保持技术创新速度社区凝聚力,才能在巨头的攻势中立于不败。

与其他国内模型的比较:百度的文心大模型经过数次升级,已具备较强中文理解和多模态能力,但因战略重点不同,在创意生成类应用上声音不大。MiniMax某种程度填补了百度未覆盖的用户群——比如年轻人聊天伴侣、独立开发者调试模型等。智谱AI的ChatGLM系列虽然开源口碑不错,但受限于模型参数(6B-130B)规模,和M1不在同一重量级比赛。百川智能开源了400亿参数的Baichuan-2模型,也在GitHub上掀起波澜,不过尚未见到面向终端用户的现象级产品。MiniMax的独特性就在于“模型驱动 + 产品落地”双管齐下:既能搞前沿模型,又能造爆款App。这种“双栖物种”在国内外并不多见。OpenAI当然是这样,但他们更封闭;MiniMax则像一个中国版的“小OpenAI”,用更开放的态度去做事。

最后,不得不提MiniMax受到的国家层面关注。2023年中共中央政治局集体学习就曾讨论AIGC,号召推动大模型自主创新。2025年4月,据报道习近平总书记视察上海时,MiniMax创始人闫俊杰作为AI企业代表向其汇报了技术研发收获,并在会议室白板上展示了“下一代智能体的自主进化”路线。从白板内容看,其中正包括MiniMax提出的那五项核心理念。能在国家最高决策层面露面,足见MiniMax作为上海AI新势力的战略地位。上海近年力推打造“人工智能高地”,MiniMax无疑是其中的明星企业。政府也在支持其开源框架建设和应用落地。这种产学研政合力,为MiniMax未来发展提供了良好土壤。

总结:MiniMax在2025年的表现,可谓开源与商业齐飞,技术应用共辉。从M1大模型树立长上下文+低成本的新标杆,到海螺02引领AI视频的电影化浪潮,再到Agent智能体预演了未来工作方式的变革,MiniMax频频带给业界惊喜。而支撑这一切的是其开放的技术文化、顶尖的人才团队和灵活的战略决策。展望未来,MiniMax面前既有与巨头合作共赢的机遇,也有激烈竞争的挑战。但可以肯定的是,在我国通用人工智能的进化道路上,MiniMax已从一只初生“小老虎”成长为不容忽视的新锐力量。它的探索和成功,将为中国AI产业的发展模式提供宝贵范例,也将在全球AI版图中贡献越来越响亮的“中国声音”。



一条对“MiniMax乘风破浪:巩固SOTA顶尖大模型公司地位”的回复

留下评论