96SEO 2026-06-06 05:17 0
小米放了个大招。
02万亿参数的MoE模型,MIT协议直接开源,API平台狂送100T Token。我第一反应是小米?Zuo手机那个小米?

在AI大模型这件事上,小米一直存在感不高。DeepSeek、Kimi、通义千问轮番上热搜的时候,小米的MiMo系列就像个安静Zuo题的学霸,考得不差,但就是没人注意。但这次V2.5,真的不太一样。
先说Zui炸裂的。MiMo-V2.5-Pro,02万亿总参数,420亿激活参数,MIT协议。你没kan错,MIT。不是什么Apache 2.0加一堆限制条款,不是「仅限研究用途」的假开源,是MIT——拿去商用、改代码、继续训练,想怎么用怎么用,连版权声明dou不需要。当然标一下还是好的。02T总参,比DeepSeek-V4-Pro还大。
而且不是一个模型开源,是整个家族全端上来了。310B的多模态版,1T的Pro版,8B的语音识别版,还有语音合成版,全部MIT。连基础模型Base版dou一起开了。我之前见过太多「开源」大模型了开源权重但限制商用,开源小模型但大模型闭源。像小米这样一口气把1T参数的Pro版和310B的多模态版全开了还用Zui宽松的MIT协议,确实少见。
说开源慷慨容易,关键还是得kan本事。
先kanMiMo-V2.5-Pro的表现。基础模型层面MMLU 82.5,GSM8K 85.0,MATH 42.0。MATH 42.0是什么概念?DeepSeek-V4-Pro Base是64.0,Kimi-K2 Base是70.0,直接甩了一大截。GPQA-Diamond 48.0,Kimi-K2 Base只有48.0。当然Base模型的对比要谨慎,训练数据量不同、训练策略不同,差距不一定代表Neng力差距,但至少说明小米在预训练阶段下了大功夫。
对话模型层面AgentNeng力是这次的主打方向。SWE-Bench Pro 57.3,和Claude Opus 3.6的57.3几乎打平;Terminal-Bench 65.0,超过了Opus 3.6的65.0。Claw-Eval,还没追上Opus 3.6的70.0,但比GPT-4的60.3和DeepSeek V4 Pro的59.8dou高。
但我觉得Zui值得说的,是Token效率。在Claw-Eval上,MiMo-V2.5-Pro平均每个轨迹消耗约70K Token,实现了64%的Pass@3。作为对比,Claude Opus 3.6用114K Token达到70.0%,GPT-4用183K Token才到60.0%,Gemini 1.5 Progeng是烧了227K Token只拿到55.0%。MiMo-V2.5-Pro用不到GPT-4四成的Token量,跑出了比GPT-4geng好的成绩。你在实际业务中跑Agent的话,这个Token效率差异就是真金白银。
多模态方面MiMo-V2.5是原生全模态,文本、图像、视频、音频统一架构,不是拼接的。Video-MME 85.0,CharXiv RQ 75.0,HR-Bench 4k 90.0,跟Gemini 1.5 Pro和Kimi K2.6基本在一个水平线上。多模态这块我自己还没亲自测过不好下太强的判断,至少从Benchmark来kan,没有明显短板。
聊完数据聊架构,这次MiMo-V2.5的几个设计我觉得挺有意思。
混合注意力机制,不全用全局注意力,1:1交替使用滑动窗口注意力和全局注意力,窗口大小128。这招直接把KV缓存存储降了约7倍,但通过可学习的注意力汇聚偏置,长上下文性Neng没怎么掉。在GraphWalks长上下文评测里MiMo-V2.5-Pro在1M上下文时BFS还Neng保持37%,Parents保持62%。上一代MiMo-V2-Pro在长上下文上基本就是断崖式下跌。
多Token预测,3个轻量级MTP模块,推理时用推测解码把输出速度提了3倍。DeepSeek也在用类似的思路,但小米在MTP模块里用了稠密FFN,329M参数3层,比较轻量。MoE路由方面Pro版384个路由专家,每次激活8个,02T总参只激活42B,稀疏比hen高,推理成本Ke以控制得比较低。训练数据量,V2.5用了约48T Token预训练,Pro版用了27T Token,不算特别大,但结合MOPD的后训练方法,Zui终效果不错。
这次Zui让我意外的,是MiMo开放平台的100T Token赠送活动。新用户注册就送,之前买过Token Plan的用户还重置了Credit余额。这手笔,比hen多大厂dou大方。
小米图什么呢?坦率的讲,逻辑不难理解。小米跟OpenAI、Anthropic不一样,它不需要靠卖API赚钱,它需要的是让geng多人用MiMo,把AINeng力嵌入小米生态——手机、汽车、智Neng家居。模型开源、API便宜,dou是为了降低开发者进入小米生态的门槛。1T参数MIT开源,这种事一出来技术圈自然会讨论,比花钱投广告有效多了。100T Tokenkan着多,但对小米来说就是算力成本,用100T Token换来一波开发者入驻,这获客成本比买量便宜多了。
小米在AI这件事上的策略跟Zuo手机一样,性价比卷死你,用规模换利润。
说个有意思的事。Hacker News上有人评价MiMo-V2-Pro是「Zui被低估的模型发布」。这个评价放在V2.5上依然成立。小米ZuoAI的方式,跟大多数公司不一样,它不搞「模型即服务」那一套,不靠API收费赚钱,不设各种使用限制,它就是把模型扔出来MIT协议,你爱怎么用怎么用。
这让我想起小米Zuo手机的早期。2011年,小米1发布,1999元,同等配置的其他手机至少要3000+。雷军说小米的硬件综合净利润率永远不超过5%。当时hen多人觉得这是噱头,后来发现,他是认真的。手机微利,靠MIUI生态和互联网服务赚钱;现在AI也一样,模型开源免费,靠生态和硬件赚钱。同样的配方,同样的味道。
你想想kan,当小米把1T参数的模型用MIT协议开源出来的时候,其他还在用限制性许可证、还在靠API收费的厂商,压力有多大。这不是简单的技术竞争,这是商业模式的降维打击。
MiMo不是Zui强的模型,但它可Neng是目前对开发者Zui友好的模型。
我自己的判断是MiMo-V2.5-Pro的Neng力介于DeepSeek V4 Pro和Claude Opus 3.6之间,某些场景比如数学和长上下文甚至geng强,但Agent综合Neng力跟Opus 3.6还有差距,特别是复杂推理和多步骤规划。Token效率是它Zui大的亮点,实际部署成本低hen多。对行业来说小米这一波对DeepSeek和Kimi的压力不小——同样是国产MoE模型,MiMo-V2.5-Pro参数geng大、协议geng宽松、Token效率geng高,开源社区的注意力是有限的,1T参数加MIT的组合,会分流hen多原本关注DeepSeek的开发者。
Ru果你是ZuoAgent开发,值得试。尤其是对Token成本敏感的场景,API调100T免费Token够跑不少实验了。本地部署的话1T参数的Pro版门槛不低,但310B/15B激活的V2.5版还是Ke以搞搞的,SGLang和vLLMdou支持,部署难度不算大。说了这么多,我自己还没在生产环境跑过MiMo-V2.5,以上判断主要基于官方数据和社区反馈。Benchmark和实际体验的差距,懂的dou懂。等我跑完自己的测试集,会再分享实际体验。
1T参数开源,100T Token白送,MIT协议随便用。
这操作,确实hen小米。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback