DeepSeek再次证明谁是开源王者

近期,DeepSeek 团队悄然发布了一个备受关注的更新模型:DeepSeek R1 0528。这款模型是基于原有的 R1 模型进行的显著增强版本。尽管官方最初没有发布详细说明,但其权重已在 Hugging Face 上发布,并已在其官方平台上线。该模型是一款开源模型,采用MIT 许可发布,支持商业用途且无限制。

DeepSeek R1 0528 具有庞大的6850 亿总参数量,但得益于其稀疏专家混合 (Sparse Mixture of Experts) 架构,在推理时只有 370 亿参数处于活跃状态。视频作者认为这意味着该模型不仅庞大,而且高效且强大。新模型被描述为更聪明、更擅长长期推理,并且感觉“已准备好进行真实世界的开发”。它在处理复杂问题时不会浪费时间。该模型可能基于最近升级的 DeepSeek V3.1 版本,这提升了其推理能力。它被认为比之前的 DeepSeek 版本运行速度明显更快,输出更有效率,处理问题时显得更加“精致”,不确定性和焦虑感更少

架构亮点

在架构方面,DeepSeek R1 0528 包含一些值得注意的设计。核心机制中应用了低秩联合压缩(low-rank joint compression)用于注意力键和值,以减少推理时的 KV 缓存。这被称为MLA (Multi-head Layer Attention)的核心。此外,该模型的旋转位置嵌入 (Rotary Embeddings, RoPE) 在每个隐藏层中都存在,这与其他一些模型架构不同。RoPE 部分包含 ‘Einsum’ 运算符以及从中分拆出的 ‘Sine’ 和 ‘Cosine’ 分支。虽然 DeepSeekMoE 模型中存在非常相似的特征,但在 V3 架构中观察到的 ‘Mul’ 运算符似乎是新部分。DeepSeekMoE 和其他分析的模型中没有使用与 V3 RotaryEmbeddings 类相关的 YARN (Yet Another RoPE extensioN),这可能是导致图中差异的原因。与此形成对比,Llama 模型中的 RoPE 仅在模型开始时应用一次。

编码能力评估

DeepSeek R1 0528 的编码质量被评价为非常出色。它在前端开发能力上做得非常出色 并能更智能地使用工具。模型能够快速构建应用程序的基础结构,有助于原型设计。视频展示了模型生成的一些代码项目,包括带有动画的 SaaS 登陆页面、天气卡片应用、基本的 3D 贪吃蛇游戏、3D 太阳系模拟器和 CRM 仪表板结构。

然而,在实际编码对比测试中,DeepSeek R1 0528 的表现有所波动:

  • 在一次对比 DeepSeek R1 0528、Claude 4 Opus 和 Gemini 2.5 Pro 的“残酷编码挑战”中,Claude Opus 在鼓机可视化界面、闪烁关键词游戏和 SEO 赛车游戏这三个测试中均获胜或唯一成功,被认为是无可争议的赢家,“遥遥领先于所有人”。DeepSeek R1 0528 在第一个测试中失败且速度明显慢于其他模型,在后两个测试中表现尚可(第二名)。Gemini 2.5 Pro 在这些测试中表现最差,多次失败或输出质量极差。 DeepSeek R1 0528 被认为是“在竞争中”,并且对于一个免费选项来说“还不错”
  • 在另一组 Python 代码生成测试中,使用 Cursor 编辑器直接运行代码,DeepSeek R1 0528 在交互式 Mandelbrot 探索器和迷宫生成/求解可视化测试中表现不佳或失败,而 Claude 4 Sonnet 表现良好。然而,在排序算法动画和康威生命游戏测试中,DeepSeek R1 0528 表现良好,甚至在代码行数上可能稍好,这些测试被认为是平局。在一个即兴的 Nokia Bounce 游戏克隆任务中,DeepSeek R1 0528快速完成代码并成功运行,赢得了该测试。
  • 最近的一次多维度测试显示,模型在根据冒泡排序算法生成 SVG 流程图时报错,Python 物理模拟运行非常缓慢,交互式 3D 魔方游戏实现了拖拽和旋转但打乱和重置功能缺失,SwiftUI 代码在 Xcode 中报错。但在使用前端技术栈实现动画天气卡片时成功且效果不错。在自然语言转 SQL 任务中,5 个语句中有 3 个完全正确。在实现算法题时也成功

基于这些实际测试,虽然作者认为 DeepSeek R1 0528 的编码能力非常出色,能够快速构建应用基础结构,并且在某些特定任务中表现良好,但总体上不如 Claude 4 擅长编程

基准测试表现

DeepSeek 团队已经发布了官方基准测试结果。这些测试将 DeepSeek R1 0528 与 OpenAI O3、最新版 Gemini 2.5 Pro、Quen 3 以及旧版 DeepSeek R1 进行了比较。结果显示,DeepSeek R1 0528 在大多数不同的基准测试中表现略低于、略高于或略落后于这些模型。特别是在代码生成方面,它与 OpenAI O3 和 Gemini 2.5 Pro 基本处于同一水平 (on par)。例如,在 LiveCodeBench 和 Aider-Polyglot 等代码基准测试中,0528 版本相较于旧版 R1 有显著提升。

其他能力评估

模型的知识库截止日期据报告是2024 年 7 月。在幻觉测试中,模型在 7 道题中有 2 道产生了幻觉。逻辑推理方面,模型在自定义的复杂农夫过河问题中出现重大失误,但成功解决了液体体积计算的数学问题。在要求严格遵循格式和多步分析的复杂提示词遵循测试中,模型严格遵循要求并给出了准确答案。模型的上下文窗口是128k tokens,在另一个来源中提到是 163k tokens,这被认为“相当不错”,可以完成任务,但可能不足以用于调试大型代码库。模型的推理风格改进,格式更好,不再需要长时间的推理停顿,且工具调用能力大大提升。有用户报告模型能够进行长达 30-60 分钟的思考而不中断。

此外,像 DeepSeek R1 0528 这样的开源模型通常更容易“越狱”且审查较少,对于其他模型不允许的任务可能有用。

访问与成本

DeepSeek R1 0528 的访问方式多样:可以通过 DeepSeek 自己的聊天机器人平台(支持“Deep Think”模式和画布可视化),或者通过OpenRouter 平台免费获取 API 密钥并访问。这个免费 API 可以与 Klein、Rue Code 或 Cursor 等编码工具或智能代理结合使用。相比于使用 Claude Opus 或 Sonnet 生成类似结构可能非常昂贵,DeepSeek R1 0528超级便宜。通过 OpenRouter 提供的免费 API 使得用户可以极低甚至免费的成本利用其能力进行开发。

总结与评价

总体而言,DeepSeek R1 0528 被认为是 DeepSeek R1 模型的一次重要升级。尽管在某些实际编程测试中仍有不足或失败的情况,并且在所有实际编码场景中尚未完全超越 Claude 4 Opus,但其在性能、效率、推理风格和工具使用上的提升是显著的。它在官方基准测试中表现出色,接近或持平于顶级的闭源模型 OpenAI O3 和 Gemini 2.5 Pro。尤其对于开发者而言,其出色的编码能力、能够快速构建应用的能力、以及极低的成本(包括通过 OpenRouter 提供的免费 API 选项),使其成为一个极具吸引力且非常有价值的模型。很多专家认为它再次证明了自己是目前最好的开源模型

总的来说,DeepSeek R1 0528 是开源社区在缩小与闭源模型差距方面取得的巨大进展的体现,它带来了“最好的前沿能力”,并且“更稳定、更完善”



留下评论