GLM4项目介绍

GLM-4是由清华大学推出的新一代开源大语言模型，具备 320 亿参数，性能对标 GPT 系列与 DeepSeek-V3/R1 系列。该模型基于 15T 高质量数据预训练（含丰富推理合成数据），并通过强化学习、拒绝采样等技术强化了指令遵循、工程代码、函数调用及智能体任务能力。其支持本地友好部署，在代码生成、多模态内容构建、搜索问答等场景表现优异，部分基准测试媲美 GPT-4o 和 DeepSeek-V3 等更大规模模型。

GLM-4 安装步骤

1. 克隆项目

从GitHub获取项目副本：

git clone https://github.com/THUDM/GLM-4.git
cd GLM-4

2. 安装依赖

根据基本示例安装所需包：

pip install -r basic_demo/requirements.txt

注意：如果项目有更新的依赖要求，请检查项目的最新说明文件中是否有额外的依赖项。

3. 下载模型权重

使用Hugging Face CLI下载模型权重文件：

pip install -U huggingface_hub
huggingface-cli download --token hf_**** --resume-download --local-dir-use-symlinks False THUDM/glm-4-9b-chat --local-dir THUDM/glm-4-9b-chat

您可以直接在Hugging Face Model Hub的模型页面下载对应的模型权重文件。

4. 配置环境变量（可选）

如果您使用GPU，请设置CUDA设备：

export CUDA_VISIBLE_DEVICES=0

5. 快速启动示例

使用Transformers后端示例，编辑Python脚本以加载模型并进行简单的询问：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import os

os.environ[CUDA_VISIBLE_DEVICES] = 0 # 设置 GPU 编号，如果单机单卡指定一个，单机多卡指定多个 GPU 编号
MODEL_PATH = THUDM/glm-4-9b-chat

device = cuda if torch.cuda.is_available() else cpu

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)

query = 你好

inputs = tokenizer.apply_chat_template([{role: user, content: query}],
                                       add_generation_prompt=True,
                                       tokenize=True,
                                       return_tensors=pt,
                                       return_dict=True
                                       )

inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True,
    device_map=auto
).eval()

gen_kwargs = {max_length: 2500, do_sample: True, top_k: 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs[input_ids].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

我们创建一个文件，然后运行它即可

python glm4_test.py

镜像信息

@敢敢のwings

认证作者

已使用14 次

运行时长

1 H

镜像大小

50GB

最后更新时间

2025-07-28

支持卡型

RTX40系20803080Ti309048G RTX40系2080TiH20A800P40A100RTX50系

+11

框架版本

PyTorch-Ubuntu24.04+CUDA12.4

CUDA版本

12.4

应用

JupyterLab: 8888

版本

v1.0

2025-07-28

PyTorch:Ubuntu24.04+CUDA12.4 | CUDA:12.4 | 大小:50.00GB