MiniMax M2.5开源上线，1美金/小时的生产力神器，魔乐社区独家体验！

2月13日，MiniMax发布MiniMax

M2.5模型，在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的SOTA，同时优化了模型对复杂任务的拆解能力和思考过程中

token

的消耗，使其能更快地完成复杂的Agentic任务，M2.5提供了经济上几乎无限制地构建和运营

Agent

/>该模型已上线魔乐社区，欢迎开发者下载体验！

🔗

模型链接：https://modelers.cn/models/MiniMaxAI/MiniMax-M2.5

（以下内容来自：MiniMax稀宇科技）

MiniMax

在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的

Verified

自主完成，覆盖研发、产品、销售、HR、财务等职能，且渗透率仍在持续上升。

其中，在编程场景表现尤为突出，M2.5

M2.5

时代的到来。

编程：像架构师一样思考和构建

在编程的核心测试中，M2.5

Claude

具备了「像架构师一样思考和构建」的能力，比如模型演化出了原生

Spec

行为：在动手写代码前，以架构师视角主动拆解功能、结构和

设计，实现完整的前期规划。

M2.5

种语言（包括

GO、C、C++、TS、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby）和数十万个真实环境中进行了训练。

不仅限于

bug

都有可靠的表现，能够胜任各类复杂系统开发的全流程。

覆盖

Server

demo”。

为了衡量相关能力，我们也将

VIBE

版：显著提升了任务复杂度、领域覆盖度和评估准确度。

综合来看，M2.5

Opus4.5

表现相当。

我们关注了模型在不同脚手架上的泛化性。

我们在不同的编程脚手架上测试了

SWE-Bench

分。

搜索和工具调用：更高效地解决问题

搜索和工具调用是模型能够自动处理复杂任务的前提，在

BrowseComp、Wide

在这些方面也达到了行业顶尖的水平。

同时，模型的泛化能力也有提升。

M2.5

在面对陌生的脚手架环境时，具有更加稳定的表现。

在人类专家真实的搜索任务中，使用搜索引擎只是一小部分，更多的是在专业网页内进行深度探索。

为此我们构建了

Interactive

Evaluation），用于衡量模型在真实专业任务上的搜索能力。

结果表明

M2.5

在真实世界的专家级搜索任务上表现卓越。

相比于前代模型，M2.5

在处理复杂任务时也展现出了更高的决策成熟度：它学会了用更精准的搜索轮次和更优的

token

的轮次消耗。

这表明模型不再只是“做对”题目，而是能以更精简的路径逼近结果。

办公场景：直接交付专业产出

我们考虑了在办公场景中，如何给出真正可交付的产物。

为此，我们与金融、法律、社会科学等领域的资深从业者展开深度合作，由他们提出需求、反馈问题、参与标准定义，并直接构建数据，将行业的隐性知识带入到模型的训练流程之中。

在此基础上，M2.5

Word、PPT、Excel

金融建模等办公高阶场景中取得了显著的能力提升。

在评测层面，我们构建了内部的

Cowork

评测框架（GDPval-MM），以两两对比的方式评估模型的交付质量和轨迹的专业性，同时监控全流程的

token

费用，估算模型在生产力场景中的实际效益。

在与主流模型的对比中，它取得了

59.0%

的平均胜率。

复杂任务快速推理

我们总是希望

Agent

完成复杂任务的时间尽可能少。

这取决于模型拆解复杂任务的能力、模型的

token

的推理速度，这几乎两倍于现在的主流模型。

同时，我们在强化学习中注重优化了模型对复杂任务的拆解能力和思考过程的

token

在完成复杂任务的时间和成本上有显著的优势。

例如，在运行

SWE-Bench

tokens。

同时，由于在并行工具调用等能力上的提升，端到端运行从平均

31.3

分钟基本持平。

连续运行无成本负担

我们设计

Agents，随着我们能力的持续提升，我们认为

M2.5

提供两个效果一样，但是速度和价格不一样的版本：速度

100

的版本的输出价格还更低一倍。

按照输出价格参考，50

TPS

系列的模型来说，唯一的问题变成了模型能力的进步速度。

行业最快的进步速度

在过去

108

M2.5，模型的进步速度超过了我们原本的预期。

比如在编程领域最具代表性的

SWE-Bench

框架

我们认为取得上述进展的核心原因是大规模的强化学习。

它显著地提升了模型能力以及对脚手架、环境的泛化性。

通过

Agent

脚手架与环境的高效优化，我们在包括大量公司内部真实任务的数十万个

Agent

脚手架与环境上大规模训练，验证了模型能力随算力和任务数的

scaling

框架，在设计上通过引入中间层完全解耦了底层训推引擎与

Agent，支持任意

脚手架和工具上的泛化。

为了提升系统吞吐，我们优化了异步调度策略来平衡系统吞吐和样本的

off-policyness

，并设计了树状合并训练样本的训练策略，实现了约

算法与

设计：算法层面，我们沿用了我们年初提出的

CISPO

Assignment）难题，我们引入了过程奖励机制（Process

Reward）对完成质量进行全链路监控。

此外，为深度对齐用户体验，我们直接估计任务在真实环境下的耗时并作为

Reward，在模型效果与响应速度之间实现了更好的平衡。

/>关于

的更多信息，我们会在后续的技术博客中给出。

最佳

Agentic

体验。

我们将处理信息的核心能力，提炼为标准的

Office

中。

全能（MAX）模式下，处理

Word

Skills，提升任务输出质量。

此外，用户还可以将

Office

与特定领域的行业经验相结合，创建面向特定任务场景的、可复用的专家（Expert）。

以行业研究为例，将成熟的研究框架

SOP

能够严格按照既定框架，自动抓取数据、组织分析逻辑，并输出格式规范的研报文档，而非仅仅生成一段粗略的文字。

在金融建模场景中，将机构专属的建模规范与

Excel

则可以遵循特定的风控逻辑与测算标准，自动生成并校验复杂的财务模型，而不只是输出一张简单的表格。

截至目前，用户已经在

MiniMax

上构建了多组深度优化、开箱即用的专家套组。

MiniMax

M2.5

的模型权重已开源并上线魔乐社区，支持本地部署，欢迎开发者下载体验：

/>https://modelers.cn/models/MiniMaxAI/MiniMax-M2.5

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

谷歌SEO

MiniMax M2.5开源上线，1美金/小时的生产力神器，魔乐社区独家体验！

token

Agent

MiniMax

Verified

M2.5

编程：像架构师一样思考和构建

Claude

Spec

种语言（包括

bug

Server

VIBE

Opus4.5

SWE-Bench

搜索和工具调用：更高效地解决问题

BrowseComp、Wide

Interactive

M2.5

token

办公场景：直接交付专业产出

Word、PPT、Excel

Cowork

token

59.0%

复杂任务快速推理

Agent

token

token

SWE-Bench

31.3

连续运行无成本负担

M2.5

100

TPS

行业最快的进步速度

108

SWE-Bench

Agent

Agent

scaling

Agent，支持任意

off-policyness

算法与

CISPO

/>关于

最佳

Agentic

Office

Word

Office

SOP

Excel

MiniMax

M2.5

为您推荐

SEO优化服务内容导航

SEO优化服务概述

SEO优化核心服务

网站技术SEO

内容优化服务

外链建设策略

SEO服务方案对比

SEO优化实施流程

网站诊断分析

关键词策略制定

技术优化实施

内容优化建设

外链建设推广

数据监控调整

SEO优化常见问题

SEO优化效果数据

行业案例 - 制造业

行业案例 - 电商

行业案例 - 教育

为什么选择我们的SEO服务

专业团队

数据驱动

透明合作