登录
Nemotron3
Nemotron 3系列是NVIDIA推出的开放模型家族,包含开放权重、训练数据和训练配方,旨在为构建专业化AI智能体提供领先的效率和准确性。
0
0/小时
v1.0

0. 引言

2025年12月,NVIDIA正式发布了Nemotron 3系列开源大语言模型,这是继Nemotron系列前作之后的又一重大突破。随着企业从单一对话机器人向协作式多智能体AI系统转型,开发者面临着通信开销、上下文漂移和高推理成本等日益严峻的挑战。Nemotron 3系列模型正是为解决这些问题而生,为开发者提供了构建大规模智能体系统所需的透明度与效率。

NVIDIA创始人兼首席执行官黄仁勋表示:"开放创新是AI进步的基础。通过Nemotron,我们将先进AI转化成开放平台,为开发者提供构建大规模代理式系统所需的透明度与效率。"本文将从技术架构、部署方式到实际应用,全面介绍Nemotron 3系列模型的使用方法。

1.1 启动 vLLM 服务

vLLM 提供了高性能的推理服务,支持 OpenAI 兼容的 API 接口。以下是启动服务的几种方式:

基础启动命令(使用本地模型路径):

# 启动 FP16 版本模型服务(使用本地下载的模型)
python -m vllm.entrypoints.openai.api_server \
    --model ./nemotron-nano-fp16 \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 1 \
    --trust-remote-code

生产环境推荐配置:

python -m vllm.entrypoints.openai.api_server \
    --model ./nemotron-nano-fp16 \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 1 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.9 \
    --enable-chunked-prefill \
    --max-num-seqs 64 \
    --trust-remote-code

主要参数说明:

参数说明推荐值
--tensor-parallel-size张量并行GPU数量根据GPU数量设置
--max-model-len最大上下文长度8192-32768
--gpu-memory-utilizationGPU显存使用率0.85-0.95
--max-num-seqs最大并发请求数32-128
--enable-chunked-prefill启用分块预填充提升吞吐量

1.2 验证服务状态

启动服务后,可以通过以下方式验证:

# 检查服务健康状态
curl http://0.0.0.0:8000/health

# 查看可用模型
curl http://0.0.0.0:8000/v1/models

# 测试对话接口
curl http://0.0.0.0:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "./nemotron-nano-fp16",
        "messages": [{"role": "user", "content": "你好,请介绍一下自己"}],
        "temperature": 0.7,
        "max_tokens": 256
    }'

2. Gradio 网页界面部署

在根目录运行运行:

python gradio_nemotron.py

启动成功后,访问 http://外网IP:7860 即可使用网页聊天界面。

image.png

Nemotron 3系列模型代表了NVIDIA在开源大语言模型领域的重要布局。通过创新的混合Mamba-Transformer MoE架构,该系列模型在保持高性能的同时,显著降低了推理成本。目前已发布的Nemotron 3 Nano模型已经可以通过Hugging Face、vLLM、SGLang等多种方式进行部署和使用。

随着Nemotron 3 Super和Ultra版本在2026年的发布,开发者将拥有更多选择来构建从边缘到云端的完整AI解决方案。

镜像信息
@敢敢のwings
敢敢のwings认证作者
已使用0
运行时长
0 H
镜像大小
160GB
最后更新时间
2025-12-18
支持卡型
A800H20A100
+3
框架版本
PyTorch-CUDA12.4+torch2.8
CUDA版本
12.4
应用
JupyterLab: 8888
自定义开放端口
7860
+1
版本
v1.0
2025-12-18
PyTorch:CUDA12.4+torch2.8 | CUDA:12.4 | 大小:160.00GB