1GLM-4.7-Flash 是一个 30B 参数(30B-A3B MoE)的模型,为了在本地高效运行,Unsloth 提供了专门优化的 GGUF 量化版本。
GLM-4.7-Flash 是 Z.ai 最新的旗舰模型,在编码和工具调用方面表现出色。Unsloth 的动态量化(Dynamic Quantization)版本可以在保持高精度的同时大幅降低显存需求。

cd /workspace
./llama.cpp/llama-cli -m /workspace/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
--temp 1.0 \
--top-p 0.95 \
--min-p 0.01 \
--dry-multiplier 1.1 \
--ctx-size 32768 \
--cnv
cd /workspace
./llama.cpp/llama-server -m /workspace/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
--port 8080 \
--host 0.0.0.0 \
--ctx-size 32768 \
--temp 1.0 \
--top-p 0.95 \
--min-p 0.01 \
--dry-multiplier 1.1 \
--n-gpu-layers 99
http://您的实例IP:8080
网页启动之后,也同时能 API 调用
python demo_use_api.py
认证作者