2月13日,MiniMax发布MiniMax

M2.5模型,在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的SOTA,同时优化了模型对复杂任务的拆解能力和思考过程中
token
的消耗,使其能更快地完成复杂的Agentic任务,M2.5提供了经济上几乎无限制地构建和运营
Agent
/>该模型已上线魔乐社区,欢迎开发者下载体验!
🔗
模型链接:https://modelers.cn/models/MiniMaxAI/MiniMax-M2.5
(以下内容来自:MiniMax稀宇科技)
M2
MiniMax
在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的
Verified
自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率仍在持续上升。
其中,在编程场景表现尤为突出,M2.5
M2.5
时代的到来。
编程:像架构师一样思考和构建
在编程的核心测试中,M2.5
Claude
具备了「像架构师一样思考和构建」的能力,比如模型演化出了原生
Spec
行为:在动手写代码前,以架构师视角主动拆解功能、结构和
设计,实现完整的前期规划。
M2.5
种语言(包括
GO、C、C++、TS、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby)和数十万个真实环境中进行了训练。
不仅限于
bug
都有可靠的表现,能够胜任各类复杂系统开发的全流程。
覆盖
Server
demo”。
为了衡量相关能力,我们也将
VIBE
版:显著提升了任务复杂度、领域覆盖度和评估准确度。
综合来看,M2.5
Opus4.5
表现相当。
我们关注了模型在不同脚手架上的泛化性。
我们在不同的编程脚手架上测试了
SWE-Bench
分。
搜索和工具调用:更高效地解决问题
搜索和工具调用是模型能够自动处理复杂任务的前提,在
BrowseComp、Wide
在这些方面也达到了行业顶尖的水平。
同时,模型的泛化能力也有提升。
M2.5
在面对陌生的脚手架环境时,具有更加稳定的表现。
在人类专家真实的搜索任务中,使用搜索引擎只是一小部分,更多的是在专业网页内进行深度探索。
为此我们构建了
Interactive
Evaluation),用于衡量模型在真实专业任务上的搜索能力。
结果表明
M2.5
在真实世界的专家级搜索任务上表现卓越。
相比于前代模型,M2.5
在处理复杂任务时也展现出了更高的决策成熟度:它学会了用更精准的搜索轮次和更优的
token
的轮次消耗。
这表明模型不再只是“做对”题目,而是能以更精简的路径逼近结果。
办公场景:直接交付专业产出
我们考虑了在办公场景中,如何给出真正可交付的产物。
为此,我们与金融、法律、社会科学等领域的资深从业者展开深度合作,由他们提出需求、反馈问题、参与标准定义,并直接构建数据,将行业的隐性知识带入到模型的训练流程之中。
在此基础上,M2.5
Word、PPT、Excel
金融建模等办公高阶场景中取得了显著的能力提升。
在评测层面,我们构建了内部的
Cowork
评测框架(GDPval-MM),以两两对比的方式评估模型的交付质量和轨迹的专业性,同时监控全流程的
token
费用,估算模型在生产力场景中的实际效益。
在与主流模型的对比中,它取得了
59.0%
的平均胜率。
复杂任务快速推理
我们总是希望
Agent
完成复杂任务的时间尽可能少。
这取决于模型拆解复杂任务的能力、模型的
token
的推理速度,这几乎两倍于现在的主流模型。
同时,我们在强化学习中注重优化了模型对复杂任务的拆解能力和思考过程的
token
在完成复杂任务的时间和成本上有显著的优势。
例如,在运行
SWE-Bench
tokens。
同时,由于在并行工具调用等能力上的提升,端到端运行从平均
31.3
分钟基本持平。
连续运行无成本负担
我们设计
Agents,随着我们能力的持续提升,我们认为
M2.5
提供两个效果一样,但是速度和价格不一样的版本:速度
100
的版本的输出价格还更低一倍。
按照输出价格参考,50
TPS
系列的模型来说,唯一的问题变成了模型能力的进步速度。
行业最快的进步速度
在过去
108
M2.5,模型的进步速度超过了我们原本的预期。
比如在编程领域最具代表性的
SWE-Bench
框架
我们认为取得上述进展的核心原因是大规模的强化学习。
它显著地提升了模型能力以及对脚手架、环境的泛化性。
通过
Agent
脚手架与环境的高效优化,我们在包括大量公司内部真实任务的数十万个
Agent
脚手架与环境上大规模训练,验证了模型能力随算力和任务数的
scaling
框架,在设计上通过引入中间层完全解耦了底层训推引擎与
Agent,支持任意
脚手架和工具上的泛化。
为了提升系统吞吐,我们优化了异步调度策略来平衡系统吞吐和样本的
off-policyness
,并设计了树状合并训练样本的训练策略,实现了约
算法与
设计:算法层面,我们沿用了我们年初提出的
CISPO
Assignment)难题,我们引入了过程奖励机制(Process
Reward)对完成质量进行全链路监控。
此外,为深度对齐用户体验,我们直接估计任务在真实环境下的耗时并作为
Reward,在模型效果与响应速度之间实现了更好的平衡。
/>关于
的更多信息,我们会在后续的技术博客中给出。
最佳Agentic
体验。
我们将处理信息的核心能力,提炼为标准的
Office
中。
全能(MAX)模式下,处理
Word
Skills,提升任务输出质量。
此外,用户还可以将
Office
与特定领域的行业经验相结合,创建面向特定任务场景的、可复用的专家(Expert)。
以行业研究为例,将成熟的研究框架
SOP
能够严格按照既定框架,自动抓取数据、组织分析逻辑,并输出格式规范的研报文档,而非仅仅生成一段粗略的文字。
在金融建模场景中,将机构专属的建模规范与
Excel
则可以遵循特定的风控逻辑与测算标准,自动生成并校验复杂的财务模型,而不只是输出一张简单的表格。
截至目前,用户已经在
MiniMax
上构建了多组深度优化、开箱即用的专家套组。
MiniMax
M2.5
的模型权重已开源并上线魔乐社区,支持本地部署,欢迎开发者下载体验:
/>https://modelers.cn/models/MiniMaxAI/MiniMax-M2.5


