1本镜像是阿里官方提供的Qwen系列模型高效推理框架,集成Qwen2.5-VL多模态与QWQ-32B大语言双模型,并内置直观的WebUI操作界面。支持开箱即用的快速部署,适用于视觉理解、复杂推理、智能对话及多模态应用开发等场景,为用户提供一站式、零成本的专业级模型服务体验。


vllm serve /model/ModelScope/Qwen/Qwen2.5-VL-32B-Instruct --port 8000 -tp 4 --max-model-len=20480 --gpu-memory-utilization 0.85 --allowed-local-media-path /root --mm_processor_kwargs '{"max_pixels": 589824,"min_pixels": 3136}'
python /root/ucloud/image.py
QwQ-32B
vllm serve /model/ModelScope/Qwen/QwQ-32B --port 8000 -tp 4
等待模型启动后,再进行交互方式的启动
vllm chat

conda activate openwebui
open-webui serve --port 8080

