智谱AI(Zhipu AI)近日发布了其最新的旗舰级开源模型——GLM-4.7。这又是一款技惊四座的编程模型,各项指标超越巅峰,以其强大的编码能力、大幅提升的UI设计美学以及极具竞争力的价格策略,孤独求败,在AI社区引起了广泛关注。本文为您详细解读其核心特性,并与顶尖同类模型(如Claude、Gemini等)进行对比,供您参考。
1. 模型概览与核心升级
GLM-4.7 是一款参数量高达 3580 亿(358B)的混合专家模型(MoE),其激活参数约为 320 亿,。该模型拥有 202k 的上下文窗口和 128k 的最大输出长度,主要在以下几个方面进行了重大升级:
- 深度推理(Deep Thinking):引入了类似o1系列的“交错思维”(interleaved thinking)和“保留思维”(preserved thinking)模式。这种机制允许模型在采取行动前进行深度思考,从而在处理复杂任务、长流程工作流时提高准确性和稳定性,。
- UI与前端设计(Vibe Coding):官方和早期测试者均强调了其在“Vibe Coding”方面的进步,即能够生成更符合现代审美、布局更精准的网页和幻灯片,甚至能自动添加动画效果,,。
- 工具调用与Agent能力:在工具使用(Tool Use)和智能体任务(Agentic tasks)上表现出色,特别是在浏览器自动化和终端操作方面,,。
- 极致性价比:GLM-4.7 延续了“价格屠夫”的策略。其API价格约为每百万输入token $0.44,输出 $1.74,相比Claude Opus等顶级闭源模型便宜得多,甚至低于Gemini Flash的输出价格,。同时,该模型采用MIT协议开源,允许商业用途。
2. 实测表现:亮点与槽点并存
亮点:惊艳的视觉呈现与复杂任务处理
在多项实测中,GLM-4.7 展现了令人印象深刻的前端开发能力。
- 复杂游戏与动画开发:在一项测试中,模型仅凭一句提示词就生成了一个包含八大行星公转轨迹的太阳系SVG动画;在另一项测试中,它从零构建了一个3D风格的“侏罗纪恐龙狩猎游戏”,包含物理碰撞检测、记分系统和3D模型渲染,。
- 网页设计:相比前代GLM-4.6,4.7版本生成的网页不再是简单的白底黑字,而是自动加入了渐变色、加载动画和响应式布局。例如在设计旅游预订网站时,它主动添加了悬停动画和专业的排版,。
- 浏览器自动化:在Chrome驱动的测试中,GLM-4.7 能够自主访问博客、提取内容并改写为社交媒体推文,执行过程流畅。
槽点:速度瓶颈与视觉输入缺失
尽管能力强大,但在实际工程应用中,GLM-4.7 也暴露了一些短板:
- 执行速度较慢:在复杂的Laravel项目代码重构任务中,GLM-4.7 耗时约 17 分钟才完成任务,而对照组的 Claude 3.5 Sonnet 仅需 7 分钟,。虽然官方API吞吐量很高,但在结合Agent环境(如Open Code或Cursor)进行深度思考时,其响应速度被部分开发者认为“难以忍受”,。
- 不支持图像输入:令人意外的是,作为2024年底发布的旗舰模型,GLM-4.7(不同于4.6V)似乎不支持直接的图像输入(Vision),导致在需要“看图写代码”的场景下经常失败,。
- 稳定性波动:有用户反馈模型在处理长任务时会出现中断或需要多次重试才能成功的情况,。
3. 同类模型横向对比
GLM-4.7 vs. GLM-4.6
- 全面碾压:4.7版本在几乎所有维度上都超越了4.6。特别是在UI设计上,4.6生成的页面往往缺乏美感,而4.7则能提供接近成品的现代化设计,。基准测试显示,4.7在SWE-bench上的得分提升显著(由24%提升至41%左右的特定指标),。
GLM-4.7 vs. Claude 3.5 Sonnet / 4.5 Sonnet*
(注:部分来源提及“Sonnet 4.5”,这可能指代基准测试中的特定版本或与Opus混淆,此处主要对比其作为顶级编码模型的表现)
- 编码与Agent能力:在SWE-bench Verified等基准测试中,GLM-4.7 声称与 Claude 3.5 Sonnet 4.5 互有胜负,甚至在工具使用上略胜一筹,。
- 实际体验:Claude 依然是“速度与智能”的平衡标杆。在相同的代码修复任务中,Claude 更快且一次通过率极高(例如自动修复测试用例),而 GLM-4.7 虽能完成任务但耗时更长,且偶尔需要更多人工干预,。
- 成本:GLM-4.7 的核心优势在于价格,其成本仅为 Claude 高端模型的几分之一。
GLM-4.7 vs. Gemini 3 Pro / Flash
- 审美对决:这是一个争议点。部分测试显示 GLM-4.7 的UI设计优于 Gemini 3 Pro,生成的组件更具交互性,;但在“Spotify克隆”等特定测试中,Gemini 3 Pro 的还原度和美观度被认为远胜于 GLM-4.7,。
- 功能实现:在逻辑功能上,GLM-4.7 有时表现更好。例如在编写棋盘游戏(Carrom board)时,GLM-4.7 生成的版本完全可玩,而 Gemini 3 Pro 的版本则无法运行,。
- 性价比:Gemini 3 Flash 在价格上与 GLM-4.7 接近,且在速度和多模态(视觉输入)上具有优势,是 GLM-4.7 的强劲对手,。
4. 总结:谁适合使用 GLM-4.7?
GLM-4.7 标志着国产开源模型在Agentic Coding(智能体编程)和UI设计领域迈出了重要一步。
- 推荐人群:预算有限的开发者、开源模型爱好者、对生成网页的美观度有较高要求的前端工程师,以及需要大量API调用但对实时速度不敏感的用户。
- 不推荐人群:极度依赖“看图写代码”功能的用户、对代码生成速度有极高要求(追求秒级响应)的专业开发者。
总体而言,GLM-4.7 虽非完美,但其强大的推理能力配合极低的使用成本,使其成为目前替代昂贵闭源模型的最佳开源选择之一。

留下评论