本镜像旨在为 vLLM 部署提供支持,适用于高性能大语言模型的推理和微调任务。镜像配置了Python、vLLM、PyTorch和CUDA的兼容版本,以确保优化的运行效果。详细环境如下--:
该镜像主要用于部署大语言模型,通过vLLM实现快速的模型推理和加载。vLLM利用优化的显存管理和并行化策略,适合处理复杂的推理任务。镜像环境支持如下功能:
镜像已配置好所需依赖,无需额外安装。您可以通过以下命令启动vLLM服务:
# 启动 vLLM api 服务
vllm serve <大模型路径> --port <端口>
vllm使用的8000端口,需要到防火墙处开启端口
from openai import OpenAI
client = OpenAI(
api_key=,
base_url=http://{内网/外网 ip}:{端口}/v1
)
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
model=model_name, # 填写需要调用的模型名称
messages=[{role: user, content: 写一篇200字的作文}],
temperature = 1,
)
print(response.choices[0].message.content)
简单的使用示例可看test_vllm.ipynb
更多关于vllm的使用请参考vllm文档
通过本镜像,您可以在优化环境中高效部署并运行大语言模型,适用于多种大模型推理和服务化场景。