新王登基:通义Qwen3破空出鞘震寰宇,千问实测百炼试锋领风骚

引言:沉寂半年后的爆发,直指开源模型头把交椅(超越了Deepseek!)?

在人工智能大模型领域,每一次关键模型的发布都牵动着全球开发者和研究者的目光。昨日,距离上一版本时隔半年,阿里巴巴通义千问团队重磅推出了其最新一代AI模型——通义千问(Qwen)3系列。这一系列模型的发布,不仅带来了庞大的模型家族和宣称的顶尖性能,更因其全面的开源策略和针对用户痛点的改进,被部分博主誉为我们“一直等待的Llama-4”,并认为它有望重塑开源AI的模型格局,挑战越来越不开放且越来越拉垮的Llama的领导地位也只是个时间问题了。

庞大的模型家族与开放的胸怀:从“巨无霸”到指尖的算力

通义千问Qwen 3的发布并非仅仅一个模型,而是一个庞大的模型家族。这个家族包含两款混合专家(Mixture of Experts, MoE)模型和多款密集(Dense)模型。

最受瞩目的无疑是旗舰MoE模型——Qwen3-235B-A2.2B。这个复杂的名称意味着总参数量高达2350亿,但在实际推理时仅激活约220亿参数(A22B)。得益于MoE架构,这显著降低了计算成本,提高了推理速度。此外,还有一个更轻量级的MoE模型,参数量300亿,激活参数仅约30亿,被认为具有本地运行的潜力。

密集模型则提供了更广泛的选择,参数量从0.6亿一直覆盖到320亿。这涵盖了从手机端、边缘计算、个人电脑到服务器等几乎所有应用场景。最小的0.6B模型在移动端设备本地部署潜力巨大,14B模型对企业或个人本地部署很友好。

通义团队以Apache 2.0许可开源了这些模型。这意味着模型的权重和演示版本可在Hugging Face、Model Scope、Kaggle等平台公开获取,并且允许商业使用,无需付费。Apache 2.0许可的高度许可性允许用户修改、分发、创建衍生作品并进行销售,仅需进行适当归属说明。这种开放策略对于全球AI研究和发展是“令人难以置信地好”。模型的开放权重,特别是对于密集模型,使得在本地计算机上运行成为可能,这在Groq等快速推理硬件上是“游戏规则改变者”。其最大的密集模型(320亿参数)和最大的MoE模型(220亿参数活跃)的基础模型似乎尚未上线。

核心技术突破:混合思考与高效架构的革新力量

Qwen 3系列模型引入了多项关键技术创新,旨在提升性能、效率和用户控制力:

  1. 混合思考模式(Hybrid Thinking Mode):按需切换,成本与质量的平衡这是Qwen 3的“最大的亮点”之一。模型支持思考模式(Thinking Mode)与非思考模式(Non-thinking Mode)的一键切换。在思考模式下,模型会在给出最终答案前进行逐步推理(Step-by-step Reasoning),而非思考模式则提供快速、接近即时的响应。这种设计允许用户根据问题的复杂程度或对速度的需求,在同一个模型内通过API参数或网页按钮灵活控制模型的“思考预算”(即用于思考的token数量)。官方数据显示,为模型提供更多思考时间确实能获得更好的结果,尤其是在复杂推理任务中。矩阵解谜测试表明,对于“这个复杂程度”的问题,未开启思考模式“不行”,必须激活思考流程。而开启思考模式后,解决问题的速度显著提升。开启思考模式的14B模型在某些任务(如矩阵填空、JSON格式化)中,效果甚至优于未开启思考模式的32B和235B模型。这种能力被认为类似于Gemini 2.5 Flash或Claude 3.7。
  2. MoE架构:兼顾性能与效率通过MoE架构,Qwen 3旗舰模型得以在拥有大量总参数的同时,显著降低活跃参数量。这使得模型在保持高性能的同时,实现了更高的推理速度和效率,并理论上更适合在本地运行.
  3. 海量训练数据与创新训练流程Qwen 3在训练数据量上进行了显著扩展,使用了高达36万亿token的预训练数据,是Qwen 2.5的近两倍(Qwen 2.5使用了约18万亿token)。这些数据来源广泛,包括网络数据和PDF等文档(如科学论文、教科书)。值得注意的是,团队利用了之前的Qwen模型版本(如Qwen 2.5VL、Qwen 2.5 Math、Qwen 2.5 Coder)来收集、过滤和改进训练数据,特别是生成数学和代码的合成数据。这体现了利用前一代模型构建更强大下一代的思路。模型的训练过程也经过精心设计。预训练经历了三个阶段,逐步增加数据量、知识密集型数据比例和上下文长度(最高支持32,000 tokens)。后训练则包含了四个阶段,特别是与思考模式的融合以及基于规则和验证奖励的强化学习(RLVR),这被认为非常有趣。对于较小的模型,采用了强到弱的知识蒸馏技术,利用大模型输出训练小模型,以提升效率。
  4. 强大的多语言支持Qwen 3开箱即支持119种语言和方言。这对于许多因现有模型不支持其母语而无法有效利用模型的用户来说,将是巨大的福音。不过,在一个0.6B模型的非官方测试中发现,其翻译能力在许多语言上存在错误或不完整
  5. 增强的Agentic与编码能力Qwen 3显著提升了模型的Agentic能力和编码能力。模型支持工具使用和函数调用,并原生支持MCP(可能是某种多模态协作或工具调用框架)。视频展示了Qwen 3能够使用多种工具执行任务,并在思维过程中调用工具。这种在思维链中顺序使用工具的能力“非常不可思议”。

性能硬核对决:基准测试与实战体验的差异

官方基准测试对Qwen 3的性能给予了极高评价,甚至可以说Qwen 3系列模型的性能表现“绝对疯狂”。尤其是旗舰模型,被定位为与Deepseek R1、Groq 3、Gemini 2.5 Pro以及OpenAI的01和03 Mini等顶级模型直接竞争。基准测试结果显示,Qwen 3旗舰模型在Arena Hard、Aimeme、Live Code Bench、Code Forces等多个测试中优于或非常接近甚至超越了这些竞争对手。Qwen 3在基准测试中全面超过Deepseek,稳坐“开源模型最强”宝座。Qwen 3部分模型得分“超过了 OpenAI 的 O 模型,还有 DEPS 的 R1 模型”。即使是轻量级的30亿参数MoE模型,在与GPT-4 Omni、Gemma 3 DCV3等模型对比中也表现出色。

然而,基准测试并不能完全代表真实使用场景下的能力。多个实战测试呈现出细微的不同:

编码能力:

  • 在算法编程方面,Qwen 3(开启深度思考)一次性解决了LeetCode上最新的三道高难度题目
  • 在前端和游戏编程方面,Qwen 3能够生成具备一定功能的代码(如HTML动态广告、Pygame马里奥、3.js迷宫),运行效果“不错”或“挺有意思”。与Deepseek和Gemini对比,Qwen 3在Pygame马里奥中因生成的地图带有Roguelike元素感觉更厉害。在3.js迷宫中,虽然初始生成有小问题,但在追问修正后完成了需求,与Deepseek各有优劣。
  • 在JSON格式化方面,开启思考模式的14B模型在生成复杂业务逻辑的订单处理JSON时表现最佳,而235B和32B模型出现了错误。在处理混合格式数据转换为JSON时,所有三款测试模型都能正确构建JSON.
  • SQL生成方面,Qwen3-235B和14B(开启思考模式)对五道查询题均给出了正确SQL。SQL优化能力也“非常令人印象深刻”。
  • 但在代码理解生成SVG流程图(冒泡排序)和一些复杂编程任务(如2D物理模拟、SVG蝴蝶)时,测试模型生成的可运行或正确代码存在问题,代码质量似乎不咋地。
  • 在前端记事贴应用和康威生命游戏实现上“通过”没有问题。32B模型“很擅长基础编码”,可能是“最好的本地编码模型”,但“未达到最先进模型的水平”。在Python代码修正和Hugging Face API脚本测试中,Qwen 3和Gemini都能很快解决。

语言与写作能力:

  • Qwen 3在用犀利深刻语言风格解释词汇方面表现不错。
  • 在创意性文本生成方面表现也让人称奇。在科幻短篇、智能眼镜文案、AI伦理辩论剧本的创意性、语言表现力、符合目标受众习惯等方面表现“很强”,“优于”Gemini 2.5 Pro。文案创作能力(落地页标题、广告文案)“非常好”,甚至“比ChatGPT和Google Gemini的产出更令人满意”
  • 在角色扮演方面,在扮演孔子时,Gemini 2.5 Pro结构和逻辑更佳,Qwen 3语言过于深奥。但0.6B模型扮演虚构气象播报员时,其语言“非常出色”,如同“讲故事的大师”

逻辑推理与问题解决:

  • 思考模式对于复杂推理至关重要。如前所述,开启思考的14B在某些推理任务中甚至超越了更大模型。
  • 在知识问答方面,Qwen 3能提供有条理的分析(如AI训练与人类学习对比),受到第三方评价者的好评。知识库截止日期不同模型有差异(235B到2024年6月,32B/14B到2024年10月)。
  • 在幻觉测试中,Qwen3-32B在叙述历史事件上出现了幻觉,而235B和开启思考的14B成功避免。其他编造的问题,所有测试模型均未产生幻觉.
  • 但一些经典的逻辑谜题(如农夫过河)和复杂的模式识别(数列规律)将多款测试模型难倒。对农夫过河问题测试的模型全部失败表示失望,逻辑谜题(找出罪犯)测试中,Qwen 3成功通过逐步分析得出正确结论,甚至创建总结表,令人惊讶。0.6B模型解决带约束的排班任务时,模型展现了清晰的思路和精准分析。
  • 数学能力方面,官方和部分博主称在数学基准上表现出色。实测中,火车相遇时间问题Qwen 3给出了正确答案。但在0.6B模型的离散数学测试中出现了明显错误。

指令遵循与角色扮演:

  • 在需要严格按步骤执行复杂指令的任务中,Qwen 3未能完成所有步骤,Gemini 2.5 Pro表现更佳,所有三款测试模型(包括带思考的14B)都未能完全遵循提示词中的所有步骤。这可能是Qwen 3目前的一个不足。
  • 角色扮演能力则如前所述,不同场景评价不一。

业务应用能力:

  • Qwen 3在在线业务中的应用方面表现出色,是“在线生意的秘密武器”“有效的盈利机器”。其在文案优化、从长内容中提取营销洞察(痛点、情感触发、CTA)方面表现“简直疯狂”,质量非常高。多语言翻译(销售文案情感本地化)也获得“绝对精准”验证评价。邮件情感分析有助于“自我反思”。生成交互式Artifacts(如简单HTML测试)非常酷,适合吸引用户互动。

本地部署的友好性与挑战

Qwen 3系列模型的不同尺寸为本地部署提供了多种选择。博主们演示了使用Ollama、LM Studio、vLLM等工具在Windows、MacOS、Linux系统上进行部署.

  • 显存占用:在RTX 4090(24GB显存)上测试:
  • 8B模型仅占用约7.4GB显存,速度非常快。
  • 14B模型占用约11.4GB显存,速度依然很快(目测30多个token/秒)。
  • 32B模型占用20.4GB显存,博主认为与4090显卡“正合适”
  • 在RTX A6000(48GB显存)上,有测试者成功运行了14B模型。在测试0.6B模型时,仅消耗略多于2GB显存,具备在CPU上运行潜力。
  • 虽然旗舰235B模型激活参数量较小,理论上更适合本地运行,但博主“NiceKate AI”实测4比特量化版本在192GB内存的电脑上运行成功,占用了132GB内存,运行速度28 token/秒。

Qwen 3对显存的占用相对较低,其开源为本地部署增加了乐趣和可能性。部署成功后,可以接入Open WebUI、Cherry Studio等前端工具进行交互、配置知识库、MCP、联网搜索等.

综合评价:开源模型的里程碑,挑战与机遇并存

优点与亮点:

  1. 性能强大且高效:在多项基准测试中达到了一线顶级模型的水平,甚至超越部分竞争对手。MoE架构显著提升了推理效率和速度。
  2. 创新的混合思考模式:提供了成本与质量的灵活平衡,对于处理复杂任务至关重要,且在小模型上也能展现超越大模型的能力.
  3. 全面的开源与友好的许可:Apache 2.0许可允许商业使用和二次开发,开放权重使得本地部署成为可能,极大地赋能了全球AI社区.
  4. 庞大的模型家族:提供从小型到旗舰的多种尺寸选择,覆盖几乎所有应用场景.
  5. 突出的创意和营销写作能力:在文案创作、内容洞察提取等方面表现出色,被认为优于GPT和Gemini,是在线业务的有力工具.
  6. 良好的本地部署友好性:相对较低的显存占用,使得较大尺寸模型(如32B)在消费级显卡上可行.
  7. 增强的Agentic与编码潜力:提升了工具调用能力,在某些编程和算法任务中表现出色.
  8. 广泛的多语言支持:理论上覆盖119种语言和方言,有潜力服务更广泛的全球用户.

不足与挑战:

  1. 实战表现存在不稳定性:尽管基准测试亮眼,但在一些复杂的实战任务(如经典的逻辑谜题、严格的多步骤指令遵循、特定类型的代码生成如SVG)中,多款测试模型都出现了困难或失败。
  2. 幻觉风险:尤其在较小模型或未开启思考模式时,可能出现幻觉。
  3. 部分能力评价不一:例如,其代码质量不如Deepseek,但在基础编码方面也有测试认为是“最好的本地模型”。与Deepseek的整体对比,基于不同测试结论不尽相同。
  4. 多语言翻译在非官方测试中表现不佳:0.6B模型的翻译测试结果令人失望。这方面仍需官方版本的进一步验证。
  5. 某些数学和逻辑问题存在错误:尽管整体逻辑推理能力增强,但在部分具体测试中仍有失误。
  6. 思考模式可能导致响应慢或痕迹过长:开启思考模式虽然提升质量,但也可能影响速度。
  7. 部分关键版本基础模型尚未完全开放:最大的MoE和32B密集模型的基础版本似乎还未上线,限制了微调。

竞争态势与Qwen 3的市场地位

Qwen 3的发布,无疑使得开源AI领域的竞争进一步白热化。它直接对标Deepseek R1,并在多个基准测试中超越它。更重要的是,Qwen 3凭借其全面的模型矩阵、Apache 2.0许可和针对用户痛点的改进(速度、开源彻底性、模型选择),正在强力挑战Meta Llama系列在开源社区的领导地位,许多研究正在从Llama转向千问。可以说Qwen 3的出现“真正尴尬的其实是Meta的Llama系列”,Llama已被DeepSeek迎头痛击,现在又被Qwen致命一击,正在从开源模型的头把交椅上迅速跌落.

Qwen 3的定位非常明确:它是一个“好学生”,并非某一领域特别突出,而是整体表现出色且易于使用。其发力点在于让更多人能够实际使用它进行商业化,而非追求实验性质的特性。这使得Qwen 3从“炫技的玩具”真正列入到“工具”的属性上.

相较于顶级的闭源模型(如Gemini 2.5 Pro、OpenAI 03 Mini/01),Qwen 3在基准测试上表现非常接近甚至超越。但在某些博主的实战测试中,特别是在严格指令遵循、某些代码生成和部分逻辑推理上,Gemini 2.5 Pro等模型表现可能更佳。但毫无疑问,Qwen 3绝对是这些闭源模型的“很棒的开源替代方案”。表现的差异可能来源于测试方法、模型版本、是否开启思考模式等多种因素。

批评与挑战

总体上Qwen3的发布符合人们的期待,是一个巨大的成功。但也有评测者和用户认为它“差那么一点点意思”,主要体现在以下方面:
多语言支持不均衡:虽然宣称支持119种语言,但有用户吐槽除了中文、英文和几种常见语言外,对其他一些小语种(例如斯瓦西里语)的支持做得并没有那么好。这可能是因为这些语言的语料不足。
上下文窗口大小有待提升:对于4B以下的模型,上下文达到了32K;对于大于4B的模型和MOE模型,上下文达到了128K,在特殊情况下可达256K。但这一点有待继续提升,因为与之相比,LLAMA4的上下文据称达到了10兆(1000万),要大很多。
目前还不支持多模态:当前的Qwen3版本还不支持多模态输入,例如你给它一张图片,它是无法识别的 [2]。与LLAMA4相比(LLAMA4甚至可以处理视频),这一点是其不足之处。多模态版本(Qwen3-Vl)计划在2025年内推出。
小参数模型易产生不切实际的高期望:Qwen3采用了“田忌赛马”式的比较策略,例如8B模型可以达到某些场景下32B模型的效果。但这可能导致人们对这些小参数模型抱有不切实际的期望。很多人尝试用8B模型去做一些复杂的任务,结果往往效果不好,不能认为用8B模型就能跑出非常好的效果来。8B模型的效果与GPT-4o等水平的模型相比,“没有任何可比性”。
与顶尖闭源模型还是有些许差距:Qwen3最大的235B-A22B模型,虽然在数学、代码、Agent等方面全面超越了DeepSeek R1,部分场景接近Gemini 2.5 Pro,但距离Gemini 2.5 Pro还是有一些差距的,特别是在所有场景下,以及复杂语义理解复杂逻辑分析方面存在问题。
指令遵循(Instruct Following)有欠缺:真实使用感受上,让Qwen3做一个很复杂的动作时,有时会丢三落四,指令依存方面肯定还有一点点欠缺。生成内容有时会偏离用户的意图,对一些指令的依从会稍微差一些
复杂推理中的问题:像所有推理模型一样,Qwen3在复杂推理中也存在逻辑断层幻觉生成的问题,即使是最大的235B模型,在这方面也不比别人好多少
过度思考和效率问题:有些人发现给Qwen3一个很复杂的问题时,它会开始推理,但推理来推理去,直接死在里头了,彻底推不出来。
伦理和隐私风险担忧:由于有非常小的模型版本可以部署在各种设备或角落,加上全开源模型可能被微调以去除安全限制,这引发了一些比较吓人的伦理和隐私方面的担心
模型对齐和偏好问题:除了指令遵循和意图偏离,还存在一些模型对齐和偏好方面的问题。
尽管存在上述不足,但基本可以认为,Qwen3依然是一次“划时代的胜利”,特别是在参数效率、全配置、全语种支持、原生支持MCP以及便捷微调等方面具有目前开源模型所具有的最强大的能力。

结论与展望

总而言之,通义千问Qwen 3系列模型的发布是一次非常重要的事件。它不仅仅带来了性能上的显著飞跃,尤其是在将高性能封装进更小模型方面,更凭借其独特的混合思考架构、强大的多语言支持、增强的工具使用能力以及彻底的开源策略,在开源AI领域树立了新的标杆。其在创意写作、业务赋能、特定编程任务和开启思考模式后的表现令人印象深刻。

尽管在一些复杂的逻辑推理和严格指令遵循等方面仍有挑战,且不同博主的实测结果存在差异,但这并不影响Qwen 3成为当前开源模型中最具竞争力、最值得关注和探索的模型系列之一。它的开源开放策略,以及从“玩具”到“工具”的清晰定位,将极大地推动AI技术的普及和应用。

未来的发展方向则可能包括补齐超长文本处理能力和视觉多模态能力。团队认为AI领域正从训练模型转向训练智能体(Agent),Qwen 3在这方面能力的提升预示着未来的发展潜力。随着更多用户在本地和云端部署和测试Qwen 3,我们对其真实能力边界的理解将更加深入。Qwen 3的出现,无疑为开源AI生态带来了新的活力和无限可能。



留下评论