当前位置：首页 > 谷歌SEO >

吉林地区如何免费建立网站而不产生额外费用？

96SEO 2026-02-23 13:28 0

基座模型升级性能更强大在中文C-Eval榜单中以51.7分位列第6

目前大多数部署方案采用的是fastapiuvicorntransformers这种方式适合快速运行一些demo在生产环境中使用还是推荐使用专门的深度学习推理服务框架如Triton。

本文将介绍我利用集团9n-triton工具部署ChatGLM2-6B过程中踩过的一些坑希望可以为有部署需求的同学提供一些帮助。

二.硬件要求

我部署了2个pod每个pod的资源CPU4核、内存30G、1张P40显卡显存24G。

三.部署实践

Triton默认支持的PyTorch模型格式为TorchScript由于ChatGLM2-6B模型转换成TorchScript格式会报错本文将以Python

模型目录结构

9N-Triton使用集成模型如上图所示模型仓库(model_repository),

它内部可以包含一个或多个子模型如chatglm2-6b)。

下面对各个部分进行展开介绍

python执行环境

该部分为模型推理时需要的相关python依赖包可以使用conda-pack将conda虚拟环境打包如python-3-8.tar.gz。

如对打包conda环境不熟悉的可以参考

https://conda.github.io/conda-pack/。

然后在config.pbtxt中配置执行环境路径

parameters:

$$TRITON_MODEL_DIRECTORY/../python-3-8.tar.gz}

在当前示例中$

TRITON_MODEL_DIRECTORYpwd/model_repository/chatglm2-6b。

注意当前python执行环境为所有子模型共享如果想给不同子模型指定不同的执行环境则应该将tar.gz文件放在子模型目录下如下所示

parameters:

$$TRITON_MODEL_DIRECTORY/python-3-8.tar.gz}

模型配置文件

模型仓库库中的每个模型都必须包含一个模型配置文件config.pbtxt用于指定平台和或后端属性、max_batch_size

属性以及模型的输入和输出张量等。

ChatGLM2-6B的配置文件可以参考如下

name:

模型每次请求最大的批数据量张量shape由max_batch_size和dims组合指定对于

max_batch_size

$$TRITON_MODEL_DIRECTORY/../python-3-8.tar.gz}

instance_group

https://github.com/triton-inference-server/server/blob/r22.04/docs/model_configuration.md

自定义python

初始化该Python模型时会进行调用一般执行获取输出信息及创建模型的操作

execute:

os.environ[PYTORCH_CUDA_ALLOC_CONF]

max_split_size_mb:32

设置work目录os.environ[TRANSFORMERS_CACHE]

os.path.dirname(os.path.abspath(__file__))/work/

os.path.dirname(os.path.abspath(__file__))/work/import

json#

torch.cuda.empty_cache()logging.basicConfig(format%(asctime)s

%(levelname)s:

%(message)s,levellogging.INFO)class

Python

json.loads(args[model_config])output_response_config

pb_utils.get_output_config_by_name(self.model_config,

history)#

typesself.output_response_dtype

pb_utils.triton_string_to_numpy(output_response_config[data_type])self.output_history_dtype

pb_utils.triton_string_to_numpy(output_history_config[data_type])ChatGLM_path

os.path.dirname(os.path.abspath(__file__))/ChatGLM2_6Bself.tokenizer

AutoTokenizer.from_pretrained(ChatGLM_path,

AutoModel.from_pretrained(ChatGLM_path,torch_dtypetorch.bfloat16,trust_remote_codeTrue).half().cuda()self.model

init

pb_utils.InferenceResponseParameters----------requests

listA

pb_utils.InferenceRequestReturns-------listA