镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
通义
其他
Qwen-vLLM-Series
包含Qwen2.5-VL多模态、QWQ-32B两个模型
0/小时
v1.0

Qwen系列大模型集合

此次主要推出了两个大模型Qwen2.5-VL-32B-Instruct、QwQ-32B,及其使用方式。

操作步骤

1. 先选择GPU型号,再选择GPU数量(注意!要运行该镜像需要RTX40系4卡运行),再点击“立即部署“

image

2. 待实例初始化完成后,在控制台-应用中点击”JupyterLab“进入

image

3. 进入JupyterLab之后,新建一个终端Terminal,根据想要运行的模型来选择对应指令输入

Qwen2.5-VL-32B-Instruct

vllm serve /model/ModelScope/Qwen/Qwen2.5-VL-32B-Instruct --port 8000 -tp 4 --max-model-len=20480 --gpu-memory-utilization 0.85 --allowed-local-media-path /root --mm_processor_kwargs '{"max_pixels": 589824,"min_pixels": 3136}'

脚本识别图片(支持本地图片和url)

python /root/ucloud/image.py

QwQ-32B

vllm serve /model/ModelScope/Qwen/QwQ-32B --port 8000 -tp 4

交互方式

等待模型启动后,再进行交互方式的启动

1.命令行交互

等待对应模型启动后,新开终端Terminal输入以下指令

vllm chat

启动后,即可在命令行中进行交互

image

2.OpenWebUI

等待对应模型启动后,启动open webui 服务

conda activate openwebui
open-webui serve --port 8080

待WebUI启动后,即通过浏览器访问:http://ip:8080 ,ip替换为虚机实例的外网ip,登陆邮箱:ucloud@ucloud.cn 密码:ucloud.cn

扫码加入优云智算使用交流群

image

镜像信息
@优云智算
官方
已使用
31
镜像大小70GB
最近编辑2025-04-03
支持卡型
RTX40系48G RTX40系
+2
框架版本
Miniconda-2.5.1
CUDA版本
12.4
应用
JupyterLab: 8888
自定义开放端口
8080
+1
版本
v1.0
2025-06-18
Miniconda:2.5.1 | CUDA:12.4 | 大小:70.00GB