vllm-0.6.3.post1-1

基于vLLM项目构建，提供高效的大语言模型推理加速服务，通过创新的PagedAttention技术优化内存管理和并行计算，显著提升模型吞吐量并降低延迟，支持多种主流Transformer架构的LLM部署

0元/小时

v1.2

vllm-0.6.3镜像环境介绍

本镜像旨在为 vLLM 部署提供支持，适用于高性能大语言模型的推理和微调任务。镜像配置了Python、vLLM、PyTorch和CUDA的兼容版本，以确保优化的运行效果。详细环境如下--：

Python: 3.10.12
vLLM: 0.6.3.post1
PyTorch: 2.4.0
CUDA: 12.4

使用场景

该镜像主要用于部署大语言模型，通过vLLM实现快速的模型推理和加载。vLLM利用优化的显存管理和并行化策略，适合处理复杂的推理任务。镜像环境支持如下功能：

高效模型推理：使用vLLM加载并运行大语言模型，实现快速推理并最小化显存占用。
分布式GPU支持：支持多GPU推理配置，以提升推理效率和处理大规模数据集。
自定义API集成：可轻松将vLLM模型部署到API端点，适用于应用集成和微服务架构。

使用

必须先运行vllm再运行ipynb的内容

镜像已配置好所需依赖，无需额外安装。您可以通过以下命令启动vLLM服务：vllm serve /model/llm/Llama3-8B-Chinese-Chat

# 启动 vLLM api 服务
 vllm serve  <大模型路径> --port <端口>

vllm使用的8000端口，需要到防火墙处开启端口

from openai import OpenAI
client = OpenAI(
        api_key=,
        base_url=http://{内网/外网 ip}:{端口}/v1
    )
model_name = client.models.list().data[0].id


response = client.chat.completions.create(
    model=model_name,  # 填写需要调用的模型名称
    messages=[{role: user, content: 写一篇200字的作文}],
    temperature = 1,
)

print(response.choices[0].message.content)

简单的使用示例可看test_vllm.ipynb

更多关于vllm的使用请参考vllm文档

注意事项

CUDA兼容性：确保硬件支持CUDA 12.4版本，以获得最佳的GPU加速效果。
显存优化：vLLM具有优化的显存管理，但仍建议根据模型规模合理分配GPU资源。
PyTorch版本：镜像中的PyTorch 2.4.0已与CUDA 12.4完全兼容，适合大模型负载。

通过本镜像，您可以在优化环境中高效部署并运行大语言模型，适用于多种大模型推理和服务化场景。

镜像信息

@苍耳阿猫

认证作者

已使用41 次

运行时长

20 H

镜像大小

100GB

最后更新时间

2025-07-29

支持卡型

RTX40系20803080Ti309048G RTX40系2080TiH20A800P40A100RTX50系

+11

框架版本

TensorFlow-2.4.1

CUDA版本

12.4.1

应用

JupyterLab: 8888

版本

v1.2

2025-07-29

TensorFlow:2.4.1 | CUDA:12.4.1 | 大小:100.00GB