镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
LLM
GLM4
GLM-4系列模型的详细安装以及使用
0/小时
v1.0

GLM-4 安装步骤

1. 克隆项目

从GitHub获取项目副本:

git clone https://github.com/THUDM/GLM-4.git
cd GLM-4

2. 安装依赖

根据基本示例安装所需包:

pip install -r basic_demo/requirements.txt

注意:如果项目有更新的依赖要求,请检查项目的最新说明文件中是否有额外的依赖项。

3. 下载模型权重

使用Hugging Face CLI下载模型权重文件:

pip install -U huggingface_hub
huggingface-cli download --token hf_**** --resume-download --local-dir-use-symlinks False THUDM/glm-4-9b-chat --local-dir THUDM/glm-4-9b-chat

您可以直接在Hugging Face Model Hub的模型页面下载对应的模型权重文件。

4. 配置环境变量(可选)

如果您使用GPU,请设置CUDA设备:

export CUDA_VISIBLE_DEVICES=0

5. 快速启动示例

使用Transformers后端示例,编辑Python脚本以加载模型并进行简单的询问:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import os

os.environ[CUDA_VISIBLE_DEVICES] = 0 # 设置 GPU 编号,如果单机单卡指定一个,单机多卡指定多个 GPU 编号
MODEL_PATH = THUDM/glm-4-9b-chat

device = cuda if torch.cuda.is_available() else cpu

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)

query = 你好

inputs = tokenizer.apply_chat_template([{role: user, content: query}],
                                       add_generation_prompt=True,
                                       tokenize=True,
                                       return_tensors=pt,
                                       return_dict=True
                                       )

inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True,
    device_map=auto
).eval()

gen_kwargs = {max_length: 2500, do_sample: True, top_k: 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs[input_ids].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

我们创建一个文件,然后运行它即可

python glm4_test.py
镜像信息
@敢敢のwings
已使用
12
镜像大小50GB
最近编辑2024-10-28
支持卡型
RTX40系48G RTX40系
+2
框架版本
PyTorch-Ubuntu24.04+CUDA12.4
CUDA版本
12.4
应用
JupyterLab: 8888
版本
v1.0
2025-02-25
PyTorch:Ubuntu24.04+CUDA12.4 | CUDA:12.4 | 大小:50.00GB