GR00T-NIVIDIA

NVIDIA Isaac GR00T N1是全球首个用于通用人形机器人推理和技能的开源基础模型。

0元/小时

v1.0

GR00T N1 模型推理与微调手册

详细手册在CSDN上：NVIDIA Isaac GR00T N1 - 世界首个通用人形机器人基础模型实战

NVIDIA Isaac GR00T N1是全球首个用于通用人形机器人推理和技能的开源基础模型。这种跨实体模型可以接收多模态输入，包括语言和图像，以在各种环境中执行操作任务。GR00T的名称源自Generalized Robot Operations and Telemetry，代表着其通用化的操作能力和遥测数据处理能力。GR00T N1 基于广泛的人形机器人数据集进行训练，这些数据集包括真实捕获的数据、使用NVIDIA Isaac GR00T Blueprint组件生成的合成数据，以及互联网规模的视频数据。通过训练后的适应过程，它可以针对特定的机器人实体、任务和环境进行优化。

1. 模型推理

一旦数据准备完毕，您可以使用预训练的GR00T N1模型进行推理。以下是基本的推理流程：

1.1 推理服务

GR00T还提供了推理服务，支持服务器模式和客户端模式：

启动服务器模式：

python scripts/inference_service.py --server

客户端模式发送请求：

python scripts/inference_service.py --client

这种架构使得模型可以作为持久化服务运行，适合实际机器人应用。

1.2 推理性能

GR00T N1在单个样本处理上的推理速度如下：

模块	推理速度
VLM骨干网络	22.92毫秒
含4步扩散的动作头部	39.61毫秒
完整模型	62.53毫秒

通常情况下，4个去噪步骤足以使模型在约60毫秒内完成一次完整推理，适合实时控制应用。

2. 模型微调

GR00T N1的一个主要优势是支持通过微调来适应新任务和环境。微调过程使用自定义数据调整预训练模型的参数。

2.1 基本微调流程

查看微调脚本的可用参数：

python scripts/gr00t_finetune.py --help

使用标准微调运行脚本：

python scripts/gr00t_finetune.py --dataset-path ./demo_data/robot_sim.PickNPlace --num-gpus 1

使用LoRA参数进行高效微调：

python scripts/gr00t_finetune.py --dataset-path ./demo_data/robot_sim.PickNPlace --num-gpus 1 --lora_rank 64 --lora_alpha 128 --batch-size 32

LoRA（低秩适应）是一种参数高效的微调技术，可以显著减少需要更新的参数数量。

2.2 微调配置建议

为了获得最佳微调效果，建议：

将批量大小调整到硬件允许的最大值
训练约20,000步
对于新实体的微调，请参考 getting_started/3_new_embodiment_finetuning.ipynb

2.3 使用更大的数据集

可以从Huggingface下载更大的模拟数据集进行微调：

huggingface-cli download nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim \
  --repo-type dataset \
  --include "gr1_arms_only.CanSort/**" \
  --local-dir $HOME/gr00t_dataset

然后使用该数据集路径进行微调：

python scripts/gr00t_finetune.py --dataset-path $HOME/gr00t_dataset/gr1_arms_only.CanSort --num-gpus 1

3. 模型评估

评估微调后的模型性能是确保其有效性的重要步骤。GR00T提供离线评估脚本，可以评估模型在数据集上的表现并生成可视化结果。

3.1 评估流程

启动推理服务并加载模型：

python scripts/inference_service.py --server \
    --model_path <MODEL_PATH> \
    --embodiment_tag new_embodiment

运行离线评估脚本：

python scripts/eval_policy.py --plot \
    --dataset_path <DATASET_PATH> \
    --embodiment_tag new_embodiment

请确保数据集中有相应的annotation.human.coarse_action字段，否则需要手动修改数据。

评估将生成真实动作与预测动作的对比图，以及动作的均方误差（MSE），这些指标有助于判断策略在数据集上的表现。

镜像信息

@敢敢のwings

认证作者

已使用29 次

运行时长

226 H

镜像大小

80GB

最后更新时间

2025-07-28

支持卡型

RTX40系20803080Ti309048G RTX40系2080TiH20A800P40A100RTX50系

+11

框架版本

PyTorch-CUDA-12.4

CUDA版本

12.4

应用

JupyterLab: 8888

版本

v1.0

2025-07-28

PyTorch:CUDA-12.4 | CUDA:12.4 | 大小:80.00GB