目前有多个专业平台提供最新大模型的评测排行榜,这些平台采用不同的评测方法和标准。
最重要的五个排行榜
- SuperCLUE – 中文大模型测评基准,提供全面的中文大模型能力评测,定期更新排行榜,包括2025年3月的最新榜单。该平台评测了包括OpenAI、深度求索、商汤等多家机构的大模型。
- Chatbot Arena – 由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型。该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,是全球顶级大模型的重要竞技场。
- chinese-llm-benchmark – 已囊括213个大模型的评测平台,覆盖了GPT-4o、o3-mini、谷歌gemini、Claude3.5等商用模型和各种开源大模型。该平台支持多维度能力评测,包括分类能力、信息抽取、阅读理解等。
- OpenCompass司南 – 提供评测榜单,是查看大模型表现的重要平台之一。
- AGI-Eval评测社区 – 专注于评估大模型通用人工智能能力的平台。
其他大模型排行资源
除了专门的评测平台外,还有一些其他资源提供大模型排名信息:
- AI工具集 – 提供人工智能大模型LLM评估基准、排行榜和数据集,帮助查看各大主流开源和非公开大模型的评测得分。
- AIease – 提供全球LLM大模型综合排名,包括GPT-4系列、谷歌Gemini系列、Claude 3系列以及多个国产模型。
- AICPB.com (AI产品榜) – AI领域的AI排行榜官网,提供AI产品排名。
- 年度研究报告 – 如《2025年人工智能指数报告》和《中文大模型基准测评2025年3月报告》等也会发布最新的大模型排名情况。
最新排行榜动态
根据最新资料,在全球生成式AI应用TOP100榜单中,中国企业占据了21席,其中DeepSeek表现突出,位列第二。而在中文大模型领域,SuperCLUE的2025年3月报告显示,深度求索DeepSeek排名第一。
此外,Chatbot Arena最新一期榜单显示,阿里云的Qwen2.5-Max表现强劲,直接冲进全球前十,在数学和编程上排名第一。
这些排行榜平台和资源会定期更新,提供最新的大模型性能评估和排名信息。
如何选择适合的排行榜
不同排行榜关注点不同,建议根据您的需求选择:
- 关注中文能力,可查看SuperCLUE和chinese-llm-benchmark
- 关注全球模型对比,可查看Chatbot Arena
- 关注特定领域能力(如医疗、法律),可查看chinese-llm-benchmark的细分排行榜
资料链接:
[1] 大模型25年2月最新排行榜(数据来自superclueai) – 腾讯云, https://cloud.tencent.com/developer/article/2495332
[2] 【2025】最新全球大模型排名榜单 – DeepSeek技术社区, https://deepseek.csdn.net/67bbd8df22df941d53fd6efa.html
[3] ai大模型最新排行榜 – 优然思, https://www.2urs.com/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%92%E8%A1%8C%E6%A6%9C/
[4] 国内大模型排名和资料整理网站原创 – CSDN博客, https://blog.csdn.net/u011936655/article/details/140657136
[5] 国内外知名大模型及应用列表——模型维度(2025/04/11) – 知乎专栏, https://zhuanlan.zhihu.com/p/670574382
[6] 大模型排名、开源社区原创 – CSDN博客, https://blog.csdn.net/weixin_40712293/article/details/147022590
[7] jeinlee1991/chinese-llm-benchmark: 目前已囊括213个大模型 – GitHub, https://github.com/jeinlee1991/chinese-llm-benchmark
[8] SuperCLUE中文大模型测评基准——评测榜单, https://www.superclueai.com/
[9] 大模型技术哪家强,找对机构看排行(建议收藏), https://zhuanlan.zhihu.com/p/664055600
[10] 全球生成式AI 应用TOP 100 榜单公布:ChatGPT 第一、DeepSeek 第二, https://www.oschina.net/news/337396/a16z-100-gen-ai-apps-2025
[11] 2025年全球100大生成式AI 应用排行榜 – 知乎专栏, https://zhuanlan.zhihu.com/p/28906744342
[12] 2025,大模型规模化应用的「觉醒年代」? – 36氪, https://m.36kr.com/p/3106802221649664
[13] AI大模型评测基准和排行榜 – AI工具集, https://ai-bot.cn/favorites/llm-benchmarks/
[14] 全球消费级AI应用排名:DeepSeek火箭蹿升至第二海螺和可灵已赶超 …, https://finance.sina.com.cn/roll/2025-03-07/doc-inenuzhi6978191.shtml
[15] 全球LLM大模型综合排名 – AIease, https://www.aiease.net/?p=5936
[16] 【应用】大模型产品全球百强榜 – 知乎专栏, https://zhuanlan.zhihu.com/p/29052191884
[17] 人工智能大模型激烈比拼纵深开拓应用场景成致胜关键 – 新浪财经, https://finance.sina.com.cn/roll/2025-04-02/doc-inertrwu2298033.shtml
[18] 《2025年人工智能指数报告》:中美AI大模型接近“技术平权”状态, https://www.eet-china.com/news/202504118935.html
[19] AI产品榜aicpb.com AI领域最权威的AI排行榜官网, https://www.aicpb.com/
[20] 2025全球生成式AI应用TOP100:中国企业占据21席 – 搜狐, https://www.sohu.com/a/869653612_120468014

留下评论