Mistral携Small 3.1再战开源,号称最佳!

法国大模型公司Mistral经历了开源-闭源之后,受DeepSeek刺激,又重走开源路,新推出的Small 3.1 号称目前同级别开源模型中表现最佳,从指标看,它在多模态和长上下文处理方面表现优异。它还支持多语言和视觉理解,因而具备无缝多模态能力,适合各类综合应用场景。性能测试数据优于 Gemma 3 和 GPT-4o Mini,但目前还是他们自己的测试,第三方测试尚待发布。它可以采用多种方式部署,可通过 API、云平台或本地运行,适合不同用户需求。


简介

Mistral Small 3.1 是由 Mistral AI 于 2025 年 3 月 17 日发布的最新语言模型,被定位为“同级别最佳模型”。它在文本处理、多模态理解和长上下文处理方面表现出色,同时保持轻量级和高效,适合各种应用场景。

模型概述

Mistral Small 3.1 构建于其前身 Mistral Small 3(2025 年 1 月发布)之上,显著提升了性能和功能。它被描述为“同级别最佳模型”,在文本处理、多模态理解和长上下文处理方面表现出色,同时保持轻量级设计,适合本地和云端部署。

主要特点

Mistral Small 3.1 的核心功能包括:

  • 文本和多模态性能:模型在文本理解和生成方面表现优异,同时支持视觉内容分析。视觉能力包括图像分析和洞察,提供如文档验证、诊断和图像客户支持等应用。
  • 长上下文支持:上下文窗口扩展至 128,000 个令牌,适合处理长文档、复杂对话和长上下文任务,如 LongBench v2(得分 37.18%)。
  • 轻量级设计:可在单台 RTX 4090 GPU 或配备 32GB RAM 的 Mac 上运行,适合边缘计算和本地部署。一旦量化后,甚至可在 32GB RAM 的设备上运行,扩展了其适用场景。
  • 多语言支持:支持数十种语言,包括但不限于英语、法语、德语、希腊语、印地语、印尼语、意大利语、日语、韩语、马来语、尼泊尔语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语、阿拉伯语、孟加拉语、汉语和波斯语。
  • 快速响应和低延迟:推理速度达 150 个令牌/秒,适合实时应用如聊天机器人和虚拟助手。低延迟函数调用支持自动化工作流中的快速执行。
  • 可定制性:支持针对特定领域(如法律、医疗、技术支持)进行微调,创建专业领域的专家模型。
  • 开源可用:以 Apache 2.0 许可证发布,允许商业和非商业用途,鼓励社区定制和扩展。
  • 智能代理能力:具有最佳的代理功能,包括原生函数调用和 JSON 输出,适合构建复杂的代理式工作流。
  • 技术细节:使用 Tekken 分词器,词汇量为 131,000,系统提示支持强一致性。

一个值得注意的细节是,其多模态能力不仅限于文本,还包括图像处理,适合如视觉检查、对象检测和图像客户支持等应用,这扩展了其在多媒体领域的潜力。

性能比较

Mistral Small 3.1 的性能在多个基准测试中表现优异,具体如下:

 

  • 与同类模型的比较:Mistral AI 声称 Mistral Small 3.1 优于 Gemma 3 和 GPT-4o Mini,尤其在文本、多模态和长上下文任务中。然而,这些结论主要基于自有基准测试,外部独立验证尚未完全确认。例如,Simon Willison 的博客提到,虽然 Mistral 的基准显示其优于竞争对手,但缺乏外部基准的确认。
  • 推理速度和成本效率:推理速度达 150 个令牌/秒,API 定价为输入 0.10 美元/百万令牌,输出 0.30 美元/百万令牌,相比 GPT-4o Mini(输入 0.15 美元/百万令牌,输出 0.60 美元/百万令牌)更具成本优势。

应用场景

Mistral Small 3.1 适合多种应用场景,包括但不限于:

  • 实时对话助手,如客户支持聊天机器人。
  • 视觉任务,如文档验证、图像分析和对象检测。
  • 长文档处理,如法律合同审查或技术文档总结。
  • 领域特定应用,通过微调创建专业模型,如医疗诊断助手。

性能比较

以下是 Mistral Small 3.1 与 Gemini 2.0 Flash、Gemma 3 (27B) 和 DeepSeek R1 的详细比较,基于当前可用的数据:

 

  • 上下文窗口:Gemini 2.0 Flash 的上下文窗口最大(1m),适合处理超长文档,其他模型均为 128k。
  • 智能分数:DeepSeek R1 最高(60),表明其推理能力最强;Gemini 2.0 Flash 次之(48),Mistral Small 3.1 最低(35)。
  • 价格:Gemma 3 可能为免费(需进一步验证),Mistral Small 3.1 价格最低(0.15$/百万令牌),DeepSeek R1 最贵(0.96$/百万令牌)。
  • 输出速度和延迟:Gemini 2.0 Flash 输出速度最快(255.1 令牌/秒),延迟最低(0.30 秒);Mistral Small 3.1 延迟也低(0.31 秒),而 DeepSeek R1 延迟最高(32.81 秒)。

中文能力

  • Mistral Small 3.1:支持多种语言,,适合多语言任务,性能良好。其中中文能力据说非常好。
  • Gemini 2.0 Flash:支持超过 40 种语言,包括中文,处理多模态内容时表现出色。
  • Gemma 3:支持超过 140 种语言,包括中文,适用于多语言和多模态任务。
  • DeepSeek R1:由中国公司开发,默认语言为中文,在中文任务上可能表现更强,但非中文语言能力可能较弱。

详细报告

Mistral Small 3.1被定位为“同级别最佳模型”,主要指它在文本处理、多模态理解和长上下文处理方面表现出色,同时保持轻量级和高效,适合各种应用场景。以下是与 Gemini 2.0 Flash、Gemma 3 和 DeepSeek R1 的详细比较,包括性能和中文能力。

四个模型概述

  • Mistral Small 3.1:
  • 发布日期:2025 年 3 月 17 日。
  • 主要特点:支持文本、多模态(视觉)、长上下文(128k 令牌),多语言支持包括中文。
  • 性能:MMLU(5-shot)得分 80.62%,HumanEval 测试得分 88.41%,视觉任务如 MMMU 得分 64.00%。
  • 部署:可通过 API、Hugging Face 下载,或本地运行(推荐 vLLM 框架)。
  • Gemini 2.0 Flash:
    • 发布日期:2025 年 2 月(具体日期未明确)。
    • 主要特点:低延迟、高性能,支持多模态输入(文本、图像、音频、视频),上下文窗口 1m。
    • 性能:智能分数 48,输出速度 255.1 令牌/秒,延迟 0.30 秒。
    • 部署:通过 Google AI Studio、Vertex AI 访问,支持超过 40 种语言,包括中文。
  • Gemma 3 (27B):
    • 发布日期:2025 年 3 月 11 日。
    • 主要特点:多模态支持,上下文窗口 128k,支持超过 140 种语言,包括中文。
    • 性能:智能分数 38,输出速度 21.9 令牌/秒,延迟 0.66 秒,可能为免费(需验证)。
    • 部署:通过 Hugging Face、Vertex AI Model Garden 访问。
  • DeepSeek R1:
    • 发布日期:2025 年 1 月。
    • 主要特点:专注于推理能力,671B 参数,上下文窗口 128k,支持中文默认语言。
    • 性能:智能分数 60,输出速度 30.6 令牌/秒,但延迟高(32.81 秒)。
    • 部署:开源(MIT 许可证),通过 Hugging Face 访问。

    性能比较表

     

    注:部分数据(如 Gemini 2.0 Flash 的 MMLU 得分)基于相关模型的近似值,具体数据可能因版本不同而异。

    中文能力分析

    • Mistral Small 3.1:官方文档明确支持中文,适合多语言任务,性能良好,特别是在长上下文和视觉任务中。
    • Gemini 2.0 Flash:支持超过 40 种语言,包括简体和繁体中文,处理多模态内容时表现优异,适合实时应用。
    • Gemma 3:支持超过 140 种语言,包括中文,tokenizer 优化了中文、日文和韩文的编码,适合多语言和多模态任务。
    • DeepSeek R1:由中国公司开发,默认语言为中文,训练数据优先考虑中文和英语,中文任务表现可能更强,但非中文语言能力可能较弱。

    应用场景

    • Mistral Small 3.1:适合聊天机器人、图像分析和长文档处理,价格低、延迟低。
    • Gemini 2.0 Flash:适合实时应用,如客户支持和多模态交互,上下文窗口大。
    • Gemma 3:适合开发者,特别在多语言和多模态任务中,可能是免费选项。
    • DeepSeek R1:适合需要强推理能力的任务,如数学和编码,但延迟较高。结论Mistral Small 3.1 在延迟和价格上具有优势,适合本地部署和多语言任务。Gemini 2.0 Flash 在输出速度和上下文窗口上领先,适合实时应用。Gemma 3 可能为免费,适合开发者。DeepSeek R1 在智能分数上最高,但延迟较高,中文任务表现可能更强。所有模型均支持中文,具体选择取决于应用场景和预算。


    留下评论