如何利用GLM-5在魔乐社区进行高效模型推理与训练部署？

2026年2月12日，智谱AI开源GLM-5模型。

在

Coding

位居全球第四、开源第一。

昇腾一直同步支持智谱GLM系列模型，此次GLM-5模型一经开源发布，昇腾AI基础软硬件即实现0day适配，为该模型的推理部署和训练复现提供全流程支持。

该模型权重、量化权重以及昇腾相关部署训练指南已全部上线魔乐社区，欢迎广大开发者下载体验！

🔗

模型权重：

https://modelers.cn/models/zhipuai/GLM-5

🔗

GLM-5-w4a8量化权重：

https://modelers.cn/models/Eco-Tech/GLM-5-w4a8

🔗

MindSpeed

LLM训练推理教程：

https://modelers.cn/models/MindSpeed/GLM-5

01
模型亮点

更大基座，更强智能

参数规模扩展：从355B（激活32B）扩展至744B（激活40B），预训练数据从23T提升至28.5T，更大规模的预训练算力显著提升了模型的通用智能水平。
异步强化学习：构建全新的"Slime"框架，支持更大模型规模及更复杂的强化学习任务，提升强化学习后训练流程效率；提出异步智能体强化学习算法，使模型能够持续从长程交互中学习，充分激发预训练模型的潜力。
稀疏注意力机制：首次集成DeepSeek
Sparse
Attention，在维持长文本效果无损的同时，大幅降低模型部署成本，提升Token
Efficiency。

Coding能力：对齐Claude

Opus

4.5

GLM-5在SWE-bench-Verified和Terminal

Bench

2.0中，分别获得77.4和55.7的开源模型最高分数，性能超过Gemini

3.0

Agent能力：SOTA级长程任务执行

GLM-5在多个Agent测评基准中取得开源第一，在BrowseComp（联网检索与信息理解）、MCP-Atlas（工具调用和多步骤任务执行）和τ²-Bench（复杂多工具场景下的规划和执行）均取得最优表现。

Bench

2中，GLM-5获得开源模型中的最佳表现。

Vending

Bench

2要求模型在一年期内经营一个模拟的自动售货机业务，GLM-5最终账户余额达到4432美元，经营表现接近Claude

Opus

4.5，展现了出色的长期规划和资源管理能力。

Agentic

的核心：模型不仅要能写代码、完成工程，还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系，成为真正的

Agentic

基于昇腾实现GLM-5的混合精度高效推理

昇腾支持对GLM模型W4A8混合精度量化，744B超大参数模型基于Atlas

800

/>GLM-5为78层decoder-only大模型：前3层为Dense

FFN，后75层为MoE（路由专家+共享专家），自带一层MTP（Multi-Token

Prediction）用于加速解码过程。

针对这一模型结构，昇腾对权重文件采用了W4A8量化，极大减少显存占用，加速Decode阶段的执行速度。

同时采用了Lightning

Indexer、Sparse

Attention等高性能融合算子，加速模型端到端的推理执行，并支持业界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

以下为基于昇腾的手把手推理部署指南。

1.
模型权重

GLM-5（BF16
版本）：https://modelers.cn/models/zhipuai/GLM-5
GLM-5-w4a8（无
mtp
的量化版本）：https://modelers.cn/models/Eco-Tech/GLM-5-w4a8
可使用
msmodelslim
对模型进行基础量化。

建议将模型权重下载至多节点共享目录，例如

安装

vLLM

A3：/dev/davinci[0-15]）。

vllm-ascend

可替换为：glm5;glm5-openeuler;glm5-a3-openeuler

export

IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3

export

/usr/local/dcmi:/usr/local/dcmi

/usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool

/usr/local/bin/npu-smi:/usr/local/bin/npu-smi

/usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/

/usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info

/etc/ascend_install.info:/etc/ascend_install.info

-it

bash

此外，如果您不希望使用上述

Docker

vllm-ascend，请参考安装指南：https://docs.vllm.ai/projects/ascend/en/latest/installation.html

要对

GLM-5

https://github.com/vllm-project/vllm.git

vllm

978a37c82387ce4a40aaadddcdbaf4a06fc4d590

pip

https://github.com/vllm-project/vllm-ascend.git

vllm-ascend

ff3a50d011dcbea08f87ebed69ff1bf156dbb01e

git

git+https://github.com/huggingface/transformers.git

如需部署多节点环境，您需要在每个节点上分别完成环境配置。

3.

系列
量化模型

16）。

执行以下脚本进行在线推理。

export HCCL_OP_EXPANSION_MODE="AIV" export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export VLLM_ASCEND_BALANCE_SCHEDULING=1 vllm /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-w4a8 --host '{"multistream_overlap_shared_expert":true}' --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' --speculative-config '{"num_speculative_tokens": "method":

"deepseek_mtp"}'

参数说明如下：

对于单节点部署，低延迟场景下我们推荐使用

dp1tp16

并关闭专家并行。

--async-scheduling：异步调度是一种优化推理效率的技术，允许非阻塞的任务调度，以提高并发性和吞吐量，尤其在处理大规模模型时效果明显。

多节点部署

系列

glm-5-bf16：至少需要

Atlas

16）。

在两台节点上分别执行以下脚本。

节点0

# ifconfig 的值必须与节点0（主节点）中设置的 local_ip HCCL_OP_EXPANSION_MODE="AIV" export GLOO_SOCKET_IFNAME=$nic_name export HCCL_SOCKET_IFNAME=$nic_name export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True vllm /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16 --host '{"cudagraph_mode": "FULL_DECODE_ONLY"}' --speculative-config '{"num_speculative_tokens": "method":

"deepseek_mtp"}'

节点1

"deepseek_mtp"}'

4.

精度评估

使用

AISBench

详细步骤请参阅AISBench文档进行精度评估：https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/evaluation/using_ais_bench.html

执行后即可获得评估结果。

5.

性能

使用
AISBench

详细步骤请参阅AISBench文档进行性能评估：https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/evaluation/using_ais_bench.html#execute-performance-evaluation

使用
vLLM
基准测试：https://docs.vllm.ai/en/latest/contributing/benchmarks.html
03
基于昇腾实现GLM-5的训练复现
GLM-5采用了DeepSeek
Sparse
Attention（DSA）架构，针对DSA训练场景，昇腾团队设计并实现了昇腾亲和融合算子，从两方面进行优化：一是优化Lightning
Indexer
Loss计算阶段的内存占用，二是利用昇腾Cube和Vector单元的流水并行来进一步提升计算效率。
训练部署指导：
https://modelers.cn/models/MindSpeed/GLM-5

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

SEO教程

如何利用GLM-5在魔乐社区进行高效模型推理与训练部署？

Coding

MindSpeed

01模型亮点

更大基座，更强智能

Sparse

Coding能力：对齐Claude

Opus

Bench

3.0

Agent能力：SOTA级长程任务执行

Bench

Bench

Opus

Agentic

Agentic

800

Indexer、Sparse

1.模型权重

mtp

msmodelslim

安装

vllm-ascend

export

export

-it

Docker

GLM-5

vllm

pip

vllm-ascend

git

3.

系列量化模型

export

export

vllm

--host

--compilation-config

--speculative-config

"method":

dp1tp16

多节点部署

Atlas

ifconfig

local_ip

export

export

export

vllm

--host

--speculative-config

"method":

ifconfig

local_ip

export

export

export

vllm

--host

--speculative-config

"method":

4.

精度评估

5.

性能

vLLM

03基于昇腾实现GLM-5的训练复现

Sparse

Indexer

为您推荐

SEO优化服务内容导航

SEO优化服务概述

SEO优化核心服务

网站技术SEO

内容优化服务

外链建设策略

SEO服务方案对比

SEO优化实施流程

01
模型亮点

1.
模型权重

系列
量化模型

03
基于昇腾实现GLM-5的训练复现