启动后打开JupyterLab
打开终端,进入项目路径cd /workspace/AnchorCrafter
,激活虚拟环境ac conda activate ac
,
运行python gradio_app.py
正常运行后,访问对应公网ip对应端口服务即可,例如:http://117.50.205.133:7860/
上传符合要求的图片视频,完成配置后,点击生成即可。
测试数据可以从项目内下载
最终效果如下:
粉丝Q群:587663288
AI Q群:273215887
主播风格产品宣传视频的生成在电子商务、广告和消费者互动方面展现出广阔前景。 尽管姿态引导的人体视频生成取得了进展,但创建产品宣传视频仍然充满挑战。 为了应对这一挑战,我们将人-物交互(HOI)集成到姿态引导的人体视频生成中,作为核心问题。 为此,我们引入了 AnchorCrafter,一个新颖的基于扩散的系统,旨在生成具有目标人物和定制对象的2D视频,实现高视觉保真度和可控交互。 具体来说,我们提出了两项关键创新:HOI-外观感知,它增强了从任意多视角识别对象外观的能力,并解耦了对象和人物外观;以及HOI-运动注入,它通过克服对象轨迹条件和相互遮挡管理方面的挑战,实现了复杂的人-物交互。 大量实验表明,与现有最先进的方法相比,我们的系统将对象外观保留率提高了7.5%,对象定位精度提高了一倍。它还在保持人体运动一致性和高质量视频生成方面优于现有方法。
[2025.06.17] 我们已经开源了训练和推理代码,以及测试数据集。训练数据集可按需提供。 [2025.04.17] 我们发布了 gradio 演示。
conda create -name anchorcrafter python==3.11
pip install -r requirements.txt
wget https://huggingface.co/yzd-v/DWPose/resolve/main/yolox_l.onnx?download=true -O models/DWPose/yolox_l.onnx
wget https://huggingface.co/yzd-v/DWPose/resolve/main/dw-ll_ucoco_384.onnx?download=true -O models/DWPose/dw-ll_ucoco_384.onnx
in_channels: 8 => in_channels: 12
最后,所有权重应按以下方式组织在 models 中
models/
├── DWPose
│ ├── dw-ll_ucoco_384.onnx
│ └── yolox_l.onnx
├── dinov2_large
│ ├── pytorch_model.bin
│ ├── config.json
│ └── preprocessor_config.json
├── stable-video-diffusion-img2vid-xt-1-1
└── AnchorCrafter_1.pth
./config 中提供了测试的示例配置。您还可以根据需要轻松修改各种配置。
sh inference.sh
我们提供了训练脚本。请下载 finutune 数据集 AnchorCrafter-finutune 并将其放置在 ./dataset/tune/ 中。
dataset/tune/
├── depth_cut
├── hand_cut
├── masked_object_cut
├── people_cut
├── video_pose
└── video_cut
下载 non-finetuned 权重并将其放置在 ./models/ 中。 训练代码可以执行如下:
sh train.sh
我们使用 DeepSeed 来实现多 GPU 训练,需要至少 5 个 GPU,每个 GPU 具有 40GB 显存。sh train.sh 中的一些参数应根据您的配置填写。
我们发布了测试数据集 AnchorCrafter-test,其中包括五个对象和八张人物图像,每个对象具有两种不同的姿态。
我们收集并提供了可供申请的基础 HOI 训练数据集 AnchorCrafter-400,其中包含 400 个视频。它专为学术研究而设计。如果您希望申请使用,请填写 问卷。
@article{xu2024anchorcrafter,
title={AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation},
author={Xu, Ziyi and Huang, Ziyao and Cao, Juan and Zhang, Yong and Cun, Xiaodong and Shuai, Qing and Wang, Yuchen and Bao, Linchao and Li, Jintao and Tang, Fan},
journal={arXiv preprint arXiv:2411.17383},
year={2024}
}
以下是我们受益的一些优秀资源:Diffusers, Stability-AI , MimicMotion, SVD_Xtend