Nemotron3一键部署 | 优云智算

Nemotron3

Nemotron 3系列是NVIDIA推出的开放模型家族，包含开放权重、训练数据和训练配方，旨在为构建专业化AI智能体提供领先的效率和准确性。

0元/小时

v1.0

0. 引言

2025年12月，NVIDIA正式发布了Nemotron 3系列开源大语言模型，这是继Nemotron系列前作之后的又一重大突破。随着企业从单一对话机器人向协作式多智能体AI系统转型，开发者面临着通信开销、上下文漂移和高推理成本等日益严峻的挑战。Nemotron 3系列模型正是为解决这些问题而生，为开发者提供了构建大规模智能体系统所需的透明度与效率。

NVIDIA创始人兼首席执行官黄仁勋表示："开放创新是AI进步的基础。通过Nemotron，我们将先进AI转化成开放平台，为开发者提供构建大规模代理式系统所需的透明度与效率。"本文将从技术架构、部署方式到实际应用，全面介绍Nemotron 3系列模型的使用方法。

1.1 启动 vLLM 服务

vLLM 提供了高性能的推理服务，支持 OpenAI 兼容的 API 接口。以下是启动服务的几种方式：

基础启动命令（使用本地模型路径）：

# 启动 FP16 版本模型服务（使用本地下载的模型）
python -m vllm.entrypoints.openai.api_server \
    --model ./nemotron-nano-fp16 \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 1 \
    --trust-remote-code

生产环境推荐配置：

python -m vllm.entrypoints.openai.api_server \
    --model ./nemotron-nano-fp16 \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 1 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.9 \
    --enable-chunked-prefill \
    --max-num-seqs 64 \
    --trust-remote-code

主要参数说明：

参数	说明	推荐值
`--tensor-parallel-size`	张量并行GPU数量	根据GPU数量设置
`--max-model-len`	最大上下文长度	8192-32768
`--gpu-memory-utilization`	GPU显存使用率	0.85-0.95
`--max-num-seqs`	最大并发请求数	32-128
`--enable-chunked-prefill`	启用分块预填充	提升吞吐量

1.2 验证服务状态

启动服务后，可以通过以下方式验证：

# 检查服务健康状态
curl http://0.0.0.0:8000/health

# 查看可用模型
curl http://0.0.0.0:8000/v1/models

# 测试对话接口
curl http://0.0.0.0:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "./nemotron-nano-fp16",
        "messages": [{"role": "user", "content": "你好，请介绍一下自己"}],
        "temperature": 0.7,
        "max_tokens": 256
    }'

2. Gradio 网页界面部署

在根目录运行运行：

python gradio_nemotron.py

启动成功后，访问 http://外网IP:7860 即可使用网页聊天界面。

Nemotron 3系列模型代表了NVIDIA在开源大语言模型领域的重要布局。通过创新的混合Mamba-Transformer MoE架构，该系列模型在保持高性能的同时，显著降低了推理成本。目前已发布的Nemotron 3 Nano模型已经可以通过Hugging Face、vLLM、SGLang等多种方式进行部署和使用。

随着Nemotron 3 Super和Ultra版本在2026年的发布，开发者将拥有更多选择来构建从边缘到云端的完整AI解决方案。

@敢敢のwings