cd ktransformers/
python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /compshare-model/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M --force_think true --cpu_infer 60 --max_new_tokens 1000 --optimize_rule_path ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu.yaml
--model_path
(必需):指定模型名称,例如 "deepseek-ai/DeepSeek-V2-Lite-Chat"
,该名称会自动从 Hugging Face 下载配置文件。如果您已经有本地文件,可以直接使用该路径来初始化模型。
注意:目录中不需要
.safetensors
文件。我们只需要配置文件来构建模型和分词器。
--gguf_path
(必需):指定包含 GGUF 文件的目录路径,这些文件可以从 Hugging Face 下载。注意该目录应仅包含当前模型的 GGUF 文件,这意味着每个模型需要一个单独的目录。
--optimize_rule_path
(除 Qwen2Moe 和 DeepSeek-V2 外必需):指定包含优化规则的 YAML 文件路径。ktransformers/optimize/optimize_rules
目录中预先写好了两个规则文件,用于优化 DeepSeek-V2 和 Qwen2-57B-A14,这两个是当前最先进的 MoE 模型。
--max_new_tokens
:整数(默认值为 1000)。生成的新令牌的最大数量。
--cpu_infer
:整数(默认值为 10)。用于推理的 CPU 数量。理想情况下应设置为(总核心数 - 2)。