距离 Qwen3 发布 (2025.4.29) 已经过去一周多。
很多追热点的文章也早也发布完成。
所谓内行看门道,外行看热闹。
我们透过新闻看到的,多数也就只是热闹:今天这个模型发布,杀疯了;明天那个模型发布,秒天秒地秒空气。
这一次,作为一名外行但又不那么外行的程序员,我决定静下心来:
从最初的源头:Qwen3 的评测跑分数据入手。
结合评测官方最新的排行榜,对 Qwen3 真实的性能做一次完整的复盘。
试试窥一窥内行的门道,看看 Qwen3 是否真如传闻的那般沸腾?
溯源
在如今这个时代,小某书也好,某音也罢,声音太多了。
一早上起来,就是 deepseek-r2 准备发布了,而事实是截止本文写作之时,deepseek-r2 都没有发布。
所以在接下来处理 Qwen3 发布的消息时,对于这些声音,我会直接忽略。
直接直捣黄龙:https://qwenlm.github.io/blog/qwen3/
也就是 Qwen3 的官网的博客页面。
从这个博客页面上,也能看到,当下比较火的一些大模型平台:
比如 hugging face, modelscope, kaggle 等。
好,废话不多说,找到了源头,接下来才算进入正文。
跑分评测有没有水分
以下是官方文档的第一段话和官方的评测图:
今天,我们宣布推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。
我相信很多人看到这张官方的图,会觉得哇塞,几乎秒杀了其他模型啊。
仔细看也确实如此,各项指标,甚至 32B 的模型,都可以和 deepseek-R1,openai-o1 一较高下。
而 Qwen3 官方也是把最优秀的数字放在了开头:ArenaHard (构建复杂的提示词让模型回答后,由 AI 评判打分)。
95+ 的成绩基本上处于绝对一流的水准。
ArenaHard
但是问题是,真的是这样吗?
对,也不对。
我们看到的是 Qwen3 放出了一个非常亮眼的数字,95.6。
对于 ArenaHard v0.1 (官方排名在 2024.11.14 停止更新),应该确实是这样的。
从 ArenaHard v0.1 的官方数据来看(如下图),顶尖模型的得分基本就在 86 ~ 92 分,略有饱和的趋势,95.6 绝对第一名。
但是 Qwen3 官方没有提及的,就是 ArenaHard v2.0 的数据。
v0.1 排名在 2024 年停止更新后,就开始了 v2.0 的预览版。
Qwen3 并没有放出来 v2.0 的跑分,不过这也确实和 v2.0 正式发布时间太短有关 (2025.4.23 正式推出)。
在 v2.0 的评测问题上,划分的更细:
一方面增加了多语言的评测,另一方面类型上也增加了创意写作类型。
而在 v2.0 的结果上,Qwen3 就显得离第一梯队还有距离了(来自 ArenaHard 官方数据):
当然,这个排名也可能有所偏差,毕竟对于这个评测系统来言,由于是 AI 评判的,而官方裁判就是 gemini-2.5 和 gpt-4.1,不好说是否存在偏见。
从数据上看,Qwen3 在复杂提示词和风格控制的处理上,基本和 deepseek-r1 打平,但是 32B 是决计没办法与之匹敌的。
再往前还有 claude-3.7 和 openai 的 o1, o4 以及 gemini 模型。
而创意写作的跑分上,也是基本处于同样的地位。
还不错,但是秒杀一众模型,32B 模型匹敌 deepseek-r1,还是略微有点言过其实了。
AIME
接下来是 AIME’24 和 AIME’25 了(24,25 就是 2024 年和 2025 年)。
英文全称是: American Invitational Mathematics Examination
直接翻译过来就是美国邀请数学考试,一共 30 道题,答案都是 0~999 内的整数。
而邀请,指只有在 AMC12 考试中表现前 5% 的高中生可以参加。
对此,以我看短视频的经验,对美国高中生的数学水平表示怀疑,这题目,应该也不难吧。
可以浅浅看几道:
感觉应该是不太难,但是要我来做的话,看懂题目都略微有点费劲。
但是这一个测试集的结果可能并不靠谱,因为题目和答案都是公开的。
这些信息可能会包含在训练集中,可能会直接命中,从分数来看,AIME 2024 的得分,明显高于 AIME 2025,不能排除训练集命中的影响。
这是 AIME 在 vals.ai 上的排名,Qwen3 确实表现优异:
而且,最亮眼的是在成本上,花费仅 1 美金,是一些模型的十分之一都不止。
这个排名中,也有之前爆火的 deepseek-03-24:
得分并不高,这应该和没有 深度思考 功能有关,毕竟这些数学题,不分析一下,直接回答,真的很难做出来。
liveCodeBench
Qwen3 官方评测图标注了 v5, 2024.10~2025.2。
v5 对于这个测试集来讲,属于比较老的一个版本了,在 2024.10 ~ 2025.2 这个时间里,包含了 166 个算法题,liveCodeBench 官方的排行只更新到 2025.2。
Qwen3 的评分 70 确实可以跻身第一梯队。
在最新版本的排行中纳入了 Qwen3,如下图:
确实还是很能打的,基本处于第一梯队。
codeForces
这个评测也是算法题,包含一些动态规划,图论这些面试常见的内容。
但是这个评测原本是给人类提供的比赛,没有官方的对于大模型的评分。
人类参赛选手前 1000 名都在 2200+,第一名更是 3800+。
Qwen3 是 2000 分,已经是非常优异的成绩了,而 32B 模型的 1900 分也非常出色。
在做算法题这一项上,应该是超越绝大部分程序员了。
Aider
Aider 是一个类似于 cline, cursor 的代码生成和修改的工具,只是相比于 Cursor 等范畴更小,并没有提供 IDE 而是只提供了命令行的能力。
不过可能也正是因为只提供了命令行操作的方式,反而被用来做大模型修改代码的评测。
以下是官方的排名(还未更新 Qwen3):
Qwen3 的评分是 61.8,基本处于 5-8 名的位置。花费估计也不高,毕竟 Qwen3 特地标注,没有开启思考模式,从而降低开销。
这里面比较有趣的就是 deepseek 了,r1 和 deepseek-0324 花费可谓是断崖式的下降,这样的评分 + 如此低的花费,也不难怪之前红极一时了。
可以看出来,Qwen3 在代码生成和编辑的能力上,排行还是不错的。
LiveBench
LiveBench 这个评测是专为大模型设计的,特点如下:
- LiveBench 通过定期发布新问题来限制潜在的污染。
- 每个问题都有可验证的、客观的基本事实答案,无需 LLM 法官。
- LiveBench 目前包含一组 18 种不同的任务,涵盖 6 个类别,随着时间的推移,我们将发布新的、更难的任务。
看起来比 ArenaHard 请 AI 来做裁判更为靠谱一些。
Qwen3 的得分是 77.1,官方当时还没有收录,2024-11-25 的排行如下:
可以排到第二,如果统计范围扩大到 2025-04-25,这个分值排名会稍微靠后一些:
略高于 deepseek-r1,与 Claude 3.7 非常接近。
BFCL
全称: Berkeley Function Calling Leaderboard
翻译过来就是 伯克利工具调用排行榜,从名字上也能看出来,核心在于评估模型的函数调用能力。
而 V3 版本,就是这个评测集的最新版本,包含了多轮交互的工具调用。
Qwen3 的评分为 70.8,可谓妥妥的第一梯队了,这一项上,远超 deepseek-r1。
官方数据如下(2025-04-25):
Qwen3 235B 基本排行在第六的位置,而 32B 的模型,也能跻身前 6。
deepseek-r1 56.9 的成绩,排行 47。
不得不说,Qwen3,这个数据还是很能打的。
MultiIF
这个评测,是 facebook 开源的一个用于评估多语言能力的,该基准旨在评估 LLM 模型在多语言环境中多轮指令跟随能力的性能。
但是并没有官方的排行,从数据集里面看,主要就是考察模型的多语言能力。
Qwen3 本身支持 100+ 语言,在多语言这条路上,我觉得应该是非常可以的。
总结
单纯看 Qwen3 官方发布的评测结果来看,确实是非常能打的一个模型。
而深入去看每一个评测的官方排名时,更能看出 Qwen3 如今的地位:235B 模型基本排名前 10,32B 模型基本处于前 20。
对于 Qwen3 官方的评测图,存在水分但是差不太多,点评如下:
ArenaHard v2.0 (AI 做裁判的评测):
在复杂提示词和语调控制上,得分 58.4,暂居第 9 (32B 模型排名 16),略逊色于 claude3.7,gemini-2.5 以及 o3, o1 等。略高于 deepseek-r1 (58.0)。
在创意写作上,得分 73.5,暂居第 5 (32B 模型排名),略逊色于 o3, gemini-2.5 和 deepseek-r1 (77)。
AIME (做数学题):暂居第五(84),但是开销最小,强于 deepseek-r1 (74)。略逊色于 o3, gemini 和 grok。
LiveCodeBench (做算法题):最新版排名第 7。
Aider (改代码,生成代码):排名第 7,花费也预计不会太高。
LiveBench (六大维度):最新排名第 8,deepseek-r1 第 9,而 32B 模型,可以排名第 10,非常能打。
BFCL v3 (函数调用):排名第 6,32B 模型排名第 7。
从评测结果来看,Qwen3 确实是一个值得沸腾的产品,作为一款国产的开源大模型,能够在诸多评测中脱颖而出,可谓是非常难得了。
并别提其独有的混合思考能力和 119 种多语言的支持。
在大模型这条路上,可以看出,Qwen 是下了大功夫的。
至于官方发布文章中提到的混合思考能力,独有的 mcp 支持,原本是打算放在一篇文章中的。
但是不曾想一个评测的篇幅就已经很长了,这些内容将会放在下一篇文章。
可以点个关注再看追更哦。