02025年12月,NVIDIA正式发布了Nemotron 3系列开源大语言模型,这是继Nemotron系列前作之后的又一重大突破。随着企业从单一对话机器人向协作式多智能体AI系统转型,开发者面临着通信开销、上下文漂移和高推理成本等日益严峻的挑战。Nemotron 3系列模型正是为解决这些问题而生,为开发者提供了构建大规模智能体系统所需的透明度与效率。
NVIDIA创始人兼首席执行官黄仁勋表示:"开放创新是AI进步的基础。通过Nemotron,我们将先进AI转化成开放平台,为开发者提供构建大规模代理式系统所需的透明度与效率。"本文将从技术架构、部署方式到实际应用,全面介绍Nemotron 3系列模型的使用方法。
vLLM 提供了高性能的推理服务,支持 OpenAI 兼容的 API 接口。以下是启动服务的几种方式:
基础启动命令(使用本地模型路径):
# 启动 FP16 版本模型服务(使用本地下载的模型)
python -m vllm.entrypoints.openai.api_server \
--model ./nemotron-nano-fp16 \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 1 \
--trust-remote-code
生产环境推荐配置:
python -m vllm.entrypoints.openai.api_server \
--model ./nemotron-nano-fp16 \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 8192 \
--gpu-memory-utilization 0.9 \
--enable-chunked-prefill \
--max-num-seqs 64 \
--trust-remote-code
主要参数说明:
| 参数 | 说明 | 推荐值 |
|---|---|---|
--tensor-parallel-size | 张量并行GPU数量 | 根据GPU数量设置 |
--max-model-len | 最大上下文长度 | 8192-32768 |
--gpu-memory-utilization | GPU显存使用率 | 0.85-0.95 |
--max-num-seqs | 最大并发请求数 | 32-128 |
--enable-chunked-prefill | 启用分块预填充 | 提升吞吐量 |
启动服务后,可以通过以下方式验证:
# 检查服务健康状态
curl http://0.0.0.0:8000/health
# 查看可用模型
curl http://0.0.0.0:8000/v1/models
# 测试对话接口
curl http://0.0.0.0:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "./nemotron-nano-fp16",
"messages": [{"role": "user", "content": "你好,请介绍一下自己"}],
"temperature": 0.7,
"max_tokens": 256
}'
在根目录运行运行:
python gradio_nemotron.py
启动成功后,访问 http://外网IP:7860 即可使用网页聊天界面。

Nemotron 3系列模型代表了NVIDIA在开源大语言模型领域的重要布局。通过创新的混合Mamba-Transformer MoE架构,该系列模型在保持高性能的同时,显著降低了推理成本。目前已发布的Nemotron 3 Nano模型已经可以通过Hugging Face、vLLM、SGLang等多种方式进行部署和使用。
随着Nemotron 3 Super和Ultra版本在2026年的发布,开发者将拥有更多选择来构建从边缘到云端的完整AI解决方案。

认证作者