登录
LingBot-World
蚂蚁集团旗下具身智能公司灵波科技(Robbyant)正式开源了其世界模型 LingBot-World。这一消息发布后迅速登顶全球社交媒体热榜,引发了人工智能领域的广泛关注
star0
0/小时
v1.0
最新

LingBot-World

蚂蚁灵波开源世界模型,基于 DiT 扩散 Transformer 架构,支持超长时序稳定生成、实时交互响应和 Zero-shot 泛化。

详细内容可以学习参考LingBot-World 技术详解与部署指南

硬件要求

配置项推荐配置
GPU1-2 张 NVIDIA RTX 4090 48GB(或 8×A100 80GB 用于长视频)
显存24-48GB
系统内存64GB+
存储空间100GB+

显存不足时可使用 --t5_cpu 卸载 T5 到 CPU,或使用 NF4 量化版本。


环境安装

1. 创建虚拟环境

conda create -n lingbot python=3.10
conda activate lingbot

2. 克隆项目

git clone https://github.com/robbyant/lingbot-world.git
cd lingbot-world

3. 安装 PyTorch

# CUDA 12.1(推荐)
pip install torch>=2.4.0 torchvision>=0.19.0 torchaudio --index-url https://download.pytorch.org/whl/cu121

# CUDA 11.8
pip install torch>=2.4.0 torchvision>=0.19.0 torchaudio --index-url https://download.pytorch.org/whl/cu118

4. 安装项目依赖

pip install -r requirements.txt

5. 安装 Flash Attention

pip install flash-attn --no-build-isolation

模型下载

HuggingFace(国际用户):

pip install "huggingface_hub[cli]"
huggingface-cli download robbyant/lingbot-world-base-cam --local-dir ./lingbot-world-base-cam

ModelScope(国内用户推荐):

pip install modelscope
modelscope download robbyant/lingbot-world-base-cam --local_dir ./lingbot-world-base-cam

NF4 量化版本(显存受限用户):

huggingface-cli download cahlen/lingbot-world-base-cam-nf4 --local_dir ./lingbot-world-base-cam-nf4

运行推理

多 GPU 推理(推荐)

480P(4 GPU):

torchrun --nproc_per_node=4 generate.py \
    --task i2v-A14B \
    --size 480*832 \
    --ckpt_dir lingbot-world-base-cam \
    --image examples/00/image.jpg \
    --action_path examples/00 \
    --dit_fsdp --t5_fsdp \
    --ulysses_size 4 \
    --frame_num 161 \
    --prompt "Your scene description here..."

720P(8 GPU):

torchrun --nproc_per_node=8 generate.py \
    --task i2v-A14B \
    --size 720*1280 \
    --ckpt_dir lingbot-world-base-cam \
    --image examples/00/image.jpg \
    --action_path examples/00 \
    --dit_fsdp --t5_fsdp \
    --ulysses_size 8 \
    --frame_num 161 \
    --prompt "Your scene description here..."

单 GPU 推理

python generate.py \
    --task i2v-A14B \
    --size 480*832 \
    --ckpt_dir lingbot-world-base-cam \
    --image examples/00/image.jpg \
    --t5_cpu \
    --frame_num 49 \
    --prompt "Your scene description here..."

单 GPU 模式下建议配合 --t5_cpu 并将 --frame_num 降至 49。

生成长视频(约1分钟)

torchrun --nproc_per_node=8 generate.py \
    --task i2v-A14B \
    --size 480*832 \
    --ckpt_dir lingbot-world-base-cam \
    --image examples/00/image.jpg \
    --dit_fsdp --t5_fsdp \
    --ulysses_size 8 \
    --frame_num 961 \
    --prompt "Your scene description here..."

核心参数说明

参数默认值说明
--taski2v-A14B任务类型(图生视频)
--size1280*720输出分辨率,格式 "宽*高"
--ckpt_dir必填模型检查点目录
--image必填输入图像路径
--action_path可选相机控制信号目录(含 intrinsics.npy 和 poses.npy)
--frame_num161生成帧数,需满足 4n+1(如 49, 161, 321, 961)
--prompt示例文本场景描述文本
--dit_fsdpFalse对 DiT 启用 FSDP 并行
--t5_fsdpFalse对 T5 启用 FSDP 并行
--t5_cpuFalse将 T5 编码器放置于 CPU(节省约 8-10GB 显存)
--ulysses_size1序列并行分片数(必须等于 GPU 数量)
--base_seed42随机种子

输入数据格式

文件格式说明
image.jpgPNG/JPG视频第一帧图像
intrinsics.npy[num_frames, 4]相机内参 [fx, fy, cx, cy]
poses.npy[num_frames, 4, 4]相机外参变换矩阵(OpenCV 坐标系)
prompt.txt文本场景描述(可选,也可通过命令行 --prompt 指定)

不提供 --action_path 时,模型将根据文本提示自主决定镜头运动。


显存优化速查

策略操作节省显存
T5 CPU 卸载添加 --t5_cpu~8-10GB
降低帧数--frame_num 49线性降低
降低分辨率--size 480*832显著降低
NF4 量化模型使用量化版本权重~60-70%
减少 GPU 数调整 --nproc_per_node--ulysses_size按需调整
@敢敢のwings
敢敢のwings认证作者
镜像信息
已使用2
运行时长
6 H
镜像大小
180GB
最后更新时间
2026-02-10
支持卡型
48G RTX40系A100A800
+3
框架版本
PyTorch-CUDA12.1+torch2.1.1
CUDA版本
12.1
应用
JupyterLab: 8888
版本
v1.0
2026-02-10
PyTorch:CUDA12.1+torch2.1.1 | CUDA:12.1 | 大小:180.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台