此次主要推出了Qwen3系列模型,及其使用方式。单卡4090推荐0.6B-8B模型,2卡推荐14B模型,4卡推荐32B模型。
# Qwen3-0.6B
VLLM_USE_MODELSCOPE=1 vllm serve /model/ModelScope/Qwen/Qwen3-0.6B -tp 1 --enable-reasoning --reasoning-parser deepseek_r1
# Qwen3-1.7B
VLLM_USE_MODELSCOPE=1 vllm serve /model/ModelScope/Qwen/Qwen3-1.7B -tp 1 --enable-reasoning --reasoning-parser deepseek_r1
# Qwen3-4B
VLLM_USE_MODELSCOPE=1 vllm serve /model/ModelScope/Qwen/Qwen3-4B -tp 1 --enable-reasoning --reasoning-parser deepseek_r1
# Qwen3-8B
vllm serve /model/ModelScope/Qwen/Qwen3-8B -tp 1 --enable-reasoning --reasoning-parser deepseek_r1 --max-model-len 20480
# Qwen3-14B
VLLM_USE_MODELSCOPE=1 vllm serve /model/ModelScope/Qwen/Qwen3-14B -tp 2 --enable-reasoning --reasoning-parser deepseek_r1
# Qwen3-32B
VLLM_USE_MODELSCOPE=1 vllm serve /model/ModelScope/Qwen/Qwen3-32B -tp 4 --enable-reasoning --reasoning-parser deepseek_r1
等待对应模型启动后,新开终端Terminal进行交互,输入以下指令
vllm chat
启动后,即可在Terminal中输入与模型进行交互
等待对应模型启动后,新开终端Terminal,输入以下指令启动open-webui 服务
conda activate openwebui
open-webui serve --port 8080
通过浏览器访问:http://ip:8080 ,ip替换为虚机实例的外网ip,登陆邮箱:ucloud@ucloud.cn 密码:ucloud.cn