除夕夜,阿里Qwen3.5正式发布并开源。

但这篇文章,我们不聊千问。
因为同一天,一件更有意思的事情发生了。
一张声称是DeepSeek-V4的「泄露跑分图」在网上疯传,几十万次浏览。
/>
SWE-Bench
56.2%。
数字一个比一个好看。
然而,这大概率不是真的。
/>
这张图来自网友
/>
图里列了五个模型的对比数据,DeepSeek-V4-Thinking在所有指标上都排第一。
如果这些数字是真的,DeepSeek-V4就是目前地球上最强的
模型,没有之一。
但社区笔记(Community
Notes)很快挂上了一条标注。
/>
AIME
道题,可能的满分成绩只有两种:119/120
99.2%,120/120
道题,是怎么来的?
一个不可能出现的分数,暴露了整张图的问题。
而且不只是
AIME
23.5%,「比GPT-5.2好
倍」。
但看看配图里的数据,GPT-5.2
FrontierMath
倍。
应该是把DeepSeek-V3.2的
2.1%
错当成了GPT-5.2的成绩。
更离谱的是,另一个网友拿着这些未经验证的数据,又做了一张更精美的「分析图表」。
/>
标题写着
SWE-Bench」,旁边配了「Breakthrough
&
Security」三段煞有介事的分析。
看得我几乎都要相信了。
/>
假图归假图。
但DeepSeek-V4即将发布,并非空穴来风。
1
日,DeepSeek
论文,解决字节「超连接」在大模型训练时信号爆炸的问题。
1
日,又一篇
条件记忆论文,把静态知识检索和动态推理拆开处理。
1
日,开发者在
个文件中。
架构和V3.2完全不同。
而这个日期,恰好是R1发布一周年。
2
日,DeepSeek
tokens,知识截止日期也更新了。
论文是真的,代码是真的,产品升级也是真的。
但那张被疯狂转发的跑分图,大概率是假的。
/>
The
80%。
这些数据来自「知情人士」和「内部测试」,听起来比那张图靠谱得多,但同样没有经过独立验证。
真的假的都在传,因为大家太渴望下一个「DeepSeek
/>
我是木易,Top2
+
产品经理。
关注「AI信息Gap」,让
/>


