镜像社区
部署GPU实例
模型API
文档中心
常见问题(FAQ)
AnchorCrafter:通过人体-物体交互视频生成动画化您的产品销售数字人
AnchorCrafter,生成带货数字人视频。通过人体-物体交互视频生成动画化您的产品销售数字人
0
0/小时
v1.0

AnchorCrafter

镜像使用说明

启动后打开JupyterLab image.png

打开终端,进入项目路径cd /workspace/AnchorCrafter,激活虚拟环境ac conda activate ac, 运行python gradio_app.py image.png

正常运行后,访问对应公网ip对应端口服务即可,例如:http://117.50.205.133:7860/
image.png

image.png

上传符合要求的图片视频,完成配置后,点击生成即可。
测试数据可以从项目内下载 image.png

最终效果如下: image.png

交流

粉丝Q群:587663288
AI Q群:273215887

AnchorCrafter: 动画网络主播通过人-物交互视频生成来销售您的产品

摘要

主播风格产品宣传视频的生成在电子商务、广告和消费者互动方面展现出广阔前景。 尽管姿态引导的人体视频生成取得了进展,但创建产品宣传视频仍然充满挑战。 为了应对这一挑战,我们将人-物交互(HOI)集成到姿态引导的人体视频生成中,作为核心问题。 为此,我们引入了 AnchorCrafter,一个新颖的基于扩散的系统,旨在生成具有目标人物和定制对象的2D视频,实现高视觉保真度和可控交互。 具体来说,我们提出了两项关键创新:HOI-外观感知,它增强了从任意多视角识别对象外观的能力,并解耦了对象和人物外观;以及HOI-运动注入,它通过克服对象轨迹条件和相互遮挡管理方面的挑战,实现了复杂的人-物交互。 大量实验表明,与现有最先进的方法相比,我们的系统将对象外观保留率提高了7.5%,对象定位精度提高了一倍。它还在保持人体运动一致性和高质量视频生成方面优于现有方法。

新闻

[2025.06.17] 我们已经开源了训练和推理代码,以及测试数据集。训练数据集可按需提供。 [2025.04.17] 我们发布了 gradio 演示。

入门

环境设置

conda create -name anchorcrafter python==3.11
pip install -r requirements.txt

检查点

  1. 下载 DWPose 模型并将其放置在 ./models/DWPose 中。
wget https://huggingface.co/yzd-v/DWPose/resolve/main/yolox_l.onnx?download=true -O models/DWPose/yolox_l.onnx
wget https://huggingface.co/yzd-v/DWPose/resolve/main/dw-ll_ucoco_384.onnx?download=true -O models/DWPose/dw-ll_ucoco_384.onnx
  1. 下载 Dinov2-large 模型并将其放置在 ./models/dinov2_large 中。
  2. 下载 SVD 模型并将其放置在 ./models/stable-video-diffusion-img2vid-xt-1-1 中。
  • 您需要修改 unet/config.json 文件中的 "in_channels" 参数。
in_channels: 8 => in_channels: 12
  1. 您可以下载 AnchorCrafter_1.pth 并将其放置在 ./models/ 中。此模型已在 finutune 数据集(五个测试对象)上进行了微调。

最后,所有权重应按以下方式组织在 models 中

models/
├── DWPose
│   ├── dw-ll_ucoco_384.onnx
│   └── yolox_l.onnx
├── dinov2_large
│   ├── pytorch_model.bin
│   ├── config.json
│   └── preprocessor_config.json
├── stable-video-diffusion-img2vid-xt-1-1  
└── AnchorCrafter_1.pth

推理

./config 中提供了测试的示例配置。您还可以根据需要轻松修改各种配置。

sh inference.sh

微调

我们提供了训练脚本。请下载 finutune 数据集 AnchorCrafter-finutune 并将其放置在 ./dataset/tune/ 中。

dataset/tune/
├── depth_cut
├── hand_cut
├── masked_object_cut
├── people_cut
├── video_pose
└── video_cut

下载 non-finetuned 权重并将其放置在 ./models/ 中。 训练代码可以执行如下:

sh train.sh

我们使用 DeepSeed 来实现多 GPU 训练,需要至少 5 个 GPU,每个 GPU 具有 40GB 显存。sh train.sh 中的一些参数应根据您的配置填写。

数据集

AnchorCrafter-test

我们发布了测试数据集 AnchorCrafter-test,其中包括五个对象和八张人物图像,每个对象具有两种不同的姿态。

AnchorCrafter-400

我们收集并提供了可供申请的基础 HOI 训练数据集 AnchorCrafter-400,其中包含 400 个视频。它专为学术研究而设计。如果您希望申请使用,请填写 问卷

引用

@article{xu2024anchorcrafter,
  title={AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation},
  author={Xu, Ziyi and Huang, Ziyao and Cao, Juan and Zhang, Yong and Cun, Xiaodong and Shuai, Qing and Wang, Yuchen and Bao, Linchao and Li, Jintao and Tang, Fan},
  journal={arXiv preprint arXiv:2411.17383},
  year={2024}
}

致谢

以下是我们受益的一些优秀资源:Diffusers, Stability-AI , MimicMotion, SVD_Xtend

镜像信息
@Ikaros
已使用0
运行时长
0 H
镜像大小
110GB
最后更新时间
2025-09-12
支持卡型
RTX40系48G RTX40系
+2
框架版本
PyTorch-2.1.0
CUDA版本
12.1
应用
JupyterLab: 8888
版本
v1.0
2025-09-12
PyTorch:2.1.0 | CUDA:12.1 | 大小:110.00GB