镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
其他
WebUI
ComfyUI
vllm-0.6.3.post1-1
通过vLLM实现快速的大模型部署、推理和加载。-1-1
0/小时
v1.2

vllm-0.6.3镜像环境介绍

本镜像旨在为 vLLM 部署提供支持,适用于高性能大语言模型的推理和微调任务。镜像配置了Python、vLLM、PyTorch和CUDA的兼容版本,以确保优化的运行效果。详细环境如下--:

  • Python: 3.10.12
  • vLLM: 0.6.3.post1
  • PyTorch: 2.4.0
  • CUDA: 12.4

使用场景

该镜像主要用于部署大语言模型,通过vLLM实现快速的模型推理和加载。vLLM利用优化的显存管理和并行化策略,适合处理复杂的推理任务。镜像环境支持如下功能:

  • 高效模型推理:使用vLLM加载并运行大语言模型,实现快速推理并最小化显存占用。
  • 分布式GPU支持:支持多GPU推理配置,以提升推理效率和处理大规模数据集。
  • 自定义API集成:可轻松将vLLM模型部署到API端点,适用于应用集成和微服务架构。

使用

镜像已配置好所需依赖,无需额外安装。您可以通过以下命令启动vLLM服务:

# 启动 vLLM api 服务
 vllm serve  <大模型路径> --port <端口>

vllm使用的8000端口,需要到防火墙处开启端口

from openai import OpenAI
client = OpenAI(
        api_key=,
        base_url=http://{内网/外网 ip}:{端口}/v1
    )
model_name = client.models.list().data[0].id


response = client.chat.completions.create(
    model=model_name,  # 填写需要调用的模型名称
    messages=[{role: user, content: 写一篇200字的作文}],
    temperature = 1,
)

print(response.choices[0].message.content)

简单的使用示例可看test_vllm.ipynb

更多关于vllm的使用请参考vllm文档

注意事项

  1. CUDA兼容性:确保硬件支持CUDA 12.4版本,以获得最佳的GPU加速效果。
  2. 显存优化:vLLM具有优化的显存管理,但仍建议根据模型规模合理分配GPU资源。
  3. PyTorch版本:镜像中的PyTorch 2.4.0已与CUDA 12.4完全兼容,适合大模型负载。

通过本镜像,您可以在优化环境中高效部署并运行大语言模型,适用于多种大模型推理和服务化场景。

镜像信息
@苍耳阿猫
已使用
35
镜像大小100GB
最近编辑2024-10-25
支持卡型
A800RTX40系48G RTX40系2080
+4
框架版本
TensorFlow-2.4.1
CUDA版本
12.4.1
应用
JupyterLab: 8888
自定义开放端口
11
+1
版本
v1.2
2025-07-02
TensorFlow:2.4.1 | CUDA:12.4.1 | 大小:100.00GB