2026年2月12日,智谱AI开源GLM-5模型。

在
Coding
位居全球第四、开源第一。
昇腾一直同步支持智谱GLM系列模型,此次GLM-5模型一经开源发布,昇腾AI基础软硬件即实现0day适配,为该模型的推理部署和训练复现提供全流程支持。
该模型权重、量化权重以及昇腾相关部署训练指南已全部上线魔乐社区,欢迎广大开发者下载体验!
🔗
模型权重:
https://modelers.cn/models/zhipuai/GLM-5
🔗
GLM-5-w4a8量化权重:
https://modelers.cn/models/Eco-Tech/GLM-5-w4a8
🔗
MindSpeed
LLM训练推理教程:
https://modelers.cn/models/MindSpeed/GLM-5
01
模型亮点
更大基座,更强智能
参数规模扩展:从355B(激活32B)扩展至744B(激活40B),预训练数据从23T提升至28.5T,更大规模的预训练算力显著提升了模型的通用智能水平。
异步强化学习:构建全新的"Slime"框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。
稀疏注意力机制:首次集成DeepSeek
Sparse
Attention,在维持长文本效果无损的同时,大幅降低模型部署成本,提升Token
Efficiency。
Coding能力:对齐ClaudeOpus
4.5
GLM-5在SWE-bench-Verified和Terminal
Bench
2.0中,分别获得77.4和55.7的开源模型最高分数,性能超过Gemini
3.0
/>
Agent能力:SOTA级长程任务执行
GLM-5在多个Agent测评基准中取得开源第一,在BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和τ²-Bench(复杂多工具场景下的规划和执行)均取得最优表现。
Bench
2中,GLM-5获得开源模型中的最佳表现。
Vending
Bench
2要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5最终账户余额达到4432美元,经营表现接近Claude
Opus
4.5,展现了出色的长期规划和资源管理能力。
Agentic
的核心:模型不仅要能写代码、完成工程,还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系,成为真正的
Agentic
基于昇腾实现GLM-5的混合精度高效推理
昇腾支持对GLM模型W4A8混合精度量化,744B超大参数模型基于Atlas
800
/>GLM-5为78层decoder-only大模型:前3层为Dense
FFN,后75层为MoE(路由专家+共享专家),自带一层MTP(Multi-Token
Prediction)用于加速解码过程。
针对这一模型结构,昇腾对权重文件采用了W4A8量化,极大减少显存占用,加速Decode阶段的执行速度。
同时采用了Lightning
Indexer、Sparse
Attention等高性能融合算子,加速模型端到端的推理执行,并支持业界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。
以下为基于昇腾的手把手推理部署指南。
1.
模型权重
- GLM-5(BF16
版本):https://modelers.cn/models/zhipuai/GLM-5
- GLM-5-w4a8(无
mtp
的量化版本):https://modelers.cn/models/Eco-Tech/GLM-5-w4a8
- 可使用
msmodelslim
对模型进行基础量化。
建议将模型权重下载至多节点共享目录,例如
安装
vLLM
A3:/dev/davinci[0-15])。
vllm-ascend
可替换为:glm5;glm5-openeuler;glm5-a3-openeuler
export
IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3
export
/usr/local/dcmi:/usr/local/dcmi
/usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool
/usr/local/bin/npu-smi:/usr/local/bin/npu-smi
/usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/
/usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info
/etc/ascend_install.info:/etc/ascend_install.info
-it
bash
此外,如果您不希望使用上述
Docker
vllm-ascend,请参考安装指南:https://docs.vllm.ai/projects/ascend/en/latest/installation.html
要对
GLM-5
https://github.com/vllm-project/vllm.git
vllm
978a37c82387ce4a40aaadddcdbaf4a06fc4d590
pip
https://github.com/vllm-project/vllm-ascend.git
vllm-ascend
ff3a50d011dcbea08f87ebed69ff1bf156dbb01e
git
git+https://github.com/huggingface/transformers.git
如需部署多节点环境,您需要在每个节点上分别完成环境配置。
3.系列
量化模型
16)。
执行以下脚本进行在线推理。
exportHCCL_OP_EXPANSION_MODE="AIV"
export
PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export
VLLM_ASCEND_BALANCE_SCHEDULING=1
vllm
/root/.cache/modelscope/hub/models/vllm-ascend/GLM5-w4a8
--host
'{"multistream_overlap_shared_expert":true}'
--compilation-config
'{"cudagraph_mode":
"FULL_DECODE_ONLY"}'
--speculative-config
'{"num_speculative_tokens":
"method":
"deepseek_mtp"}'
参数说明如下:
对于单节点部署,低延迟场景下我们推荐使用
dp1tp16
并关闭专家并行。
--async-scheduling:异步调度是一种优化推理效率的技术,允许非阻塞的任务调度,以提高并发性和吞吐量,尤其在处理大规模模型时效果明显。
多节点部署
A3
系列
glm-5-bf16:至少需要
Atlas
16)。
在两台节点上分别执行以下脚本。
节点0
#ifconfig
的值必须与节点0(主节点)中设置的
local_ip
HCCL_OP_EXPANSION_MODE="AIV"
export
GLOO_SOCKET_IFNAME=$nic_name
export
HCCL_SOCKET_IFNAME=$nic_name
export
PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
vllm
/root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16
--host
'{"cudagraph_mode":
"FULL_DECODE_ONLY"}'
--speculative-config
'{"num_speculative_tokens":
"method":
"deepseek_mtp"}'
节点1
#ifconfig
的值必须与节点0(主节点)中设置的
local_ip
HCCL_OP_EXPANSION_MODE="AIV"
export
GLOO_SOCKET_IFNAME=$nic_name
export
HCCL_SOCKET_IFNAME=$nic_name
export
PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
vllm
/root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16
--host
'{"cudagraph_mode":
"FULL_DECODE_ONLY"}'
--speculative-config
'{"num_speculative_tokens":
"method":
"deepseek_mtp"}'
4.精度评估
使用
AISBench
详细步骤请参阅AISBench文档进行精度评估:https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/evaluation/using_ais_bench.html
执行后即可获得评估结果。
5.性能
- 使用
AISBench
详细步骤请参阅AISBench文档进行性能评估:https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/evaluation/using_ais_bench.html#execute-performance-evaluation
- 使用
vLLM
基准测试:https://docs.vllm.ai/en/latest/contributing/benchmarks.html
03
基于昇腾实现GLM-5的训练复现
GLM-5采用了DeepSeek
Sparse
Attention(DSA)架构,针对DSA训练场景,昇腾团队设计并实现了昇腾亲和融合算子,从两方面进行优化:一是优化Lightning
Indexer
Loss计算阶段的内存占用,二是利用昇腾Cube和Vector单元的流水并行来进一步提升计算效率。
训练部署指导:
https://modelers.cn/models/MindSpeed/GLM-5


