从GitHub获取项目副本:
git clone https://github.com/THUDM/GLM-4.git
cd GLM-4
根据基本示例安装所需包:
pip install -r basic_demo/requirements.txt
注意:如果项目有更新的依赖要求,请检查项目的最新说明文件中是否有额外的依赖项。
使用Hugging Face CLI下载模型权重文件:
pip install -U huggingface_hub
huggingface-cli download --token hf_**** --resume-download --local-dir-use-symlinks False THUDM/glm-4-9b-chat --local-dir THUDM/glm-4-9b-chat
您可以直接在Hugging Face Model Hub的模型页面下载对应的模型权重文件。
如果您使用GPU,请设置CUDA设备:
export CUDA_VISIBLE_DEVICES=0
使用Transformers后端示例,编辑Python脚本以加载模型并进行简单的询问:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import os
os.environ[CUDA_VISIBLE_DEVICES] = 0 # 设置 GPU 编号,如果单机单卡指定一个,单机多卡指定多个 GPU 编号
MODEL_PATH = THUDM/glm-4-9b-chat
device = cuda if torch.cuda.is_available() else cpu
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
query = 你好
inputs = tokenizer.apply_chat_template([{role: user, content: query}],
add_generation_prompt=True,
tokenize=True,
return_tensors=pt,
return_dict=True
)
inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
MODEL_PATH,
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True,
device_map=auto
).eval()
gen_kwargs = {max_length: 2500, do_sample: True, top_k: 1}
with torch.no_grad():
outputs = model.generate(**inputs, **gen_kwargs)
outputs = outputs[:, inputs[input_ids].shape[1]:]
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
我们创建一个文件,然后运行它即可
python glm4_test.py