DeepSeek-V4「跑分泄露」引发热议？真相究竟如何？

除夕夜，阿里Qwen3.5正式发布并开源。

但这篇文章，我们不聊千问。

因为同一天，一件更有意思的事情发生了。

一张声称是DeepSeek-V4的「泄露跑分图」在网上疯传，几十万次浏览。

/>
SWE-Bench

56.2%。

数字一个比一个好看。

然而，这大概率不是真的。

/>
这张图来自网友

图里列了五个模型的对比数据，DeepSeek-V4-Thinking在所有指标上都排第一。

如果这些数字是真的，DeepSeek-V4就是目前地球上最强的

模型，没有之一。

但社区笔记（Community

Notes）很快挂上了一条标注。

/>
AIME

道题，可能的满分成绩只有两种：119/120

99.2%，120/120

道题，是怎么来的？

一个不可能出现的分数，暴露了整张图的问题。

而且不只是

AIME

23.5%，「比GPT-5.2好

倍」。

但看看配图里的数据，GPT-5.2

`FrontierMath`

倍。

应该是把DeepSeek-V3.2的

`2.1%`

错当成了GPT-5.2的成绩。

更离谱的是，另一个网友拿着这些未经验证的数据，又做了一张更精美的「分析图表」。

`/> 标题写着`

SWE-Bench」，旁边配了「Breakthrough

`&`

Security」三段煞有介事的分析。

看得我几乎都要相信了。

/>
假图归假图。
但DeepSeek-V4即将发布，并非空穴来风。
1
日，DeepSeek
论文，解决字节「超连接」在大模型训练时信号爆炸的问题。
1
日，又一篇
条件记忆论文，把静态知识检索和动态推理拆开处理。
1
日，开发者在
个文件中。
架构和V3.2完全不同。
而这个日期，恰好是R1发布一周年。
2
日，DeepSeek
tokens，知识截止日期也更新了。
论文是真的，代码是真的，产品升级也是真的。
但那张被疯狂转发的跑分图，大概率是假的。
/>The
80%。
这些数据来自「知情人士」和「内部测试」，听起来比那张图靠谱得多，但同样没有经过独立验证。
真的假的都在传，因为大家太渴望下一个「DeepSeek
/>
我是木易，Top2
+
产品经理。
关注「AI信息Gap」，让
/>

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

百度SEO

DeepSeek-V4「跑分泄露」引发热议？真相究竟如何？

/>SWE-Bench

/>这张图来自网友

/>AIME

99.2%，120/120

AIME

FrontierMath

2.1%

/>标题写着

&

日，DeepSeek

日，又一篇

日，开发者在

日，DeepSeek

/>The

+

/>

为您推荐

SEO优化服务内容导航

SEO优化服务概述

SEO优化核心服务

网站技术SEO

内容优化服务

外链建设策略

SEO服务方案对比

SEO优化实施流程

网站诊断分析

关键词策略制定

技术优化实施

内容优化建设

外链建设推广

数据监控调整

SEO优化常见问题

SEO优化效果数据

行业案例 - 制造业

行业案例 - 电商

行业案例 - 教育

为什么选择我们的SEO服务

专业团队

数据驱动

透明合作

我们的SEO服务理念

提交需求或反馈

产品中心

SEO基础

SEO技术

联系我们

QQ在线客服

关注微信