MuseTalk 镜像使用教程

注意事项

建议选择显存48G及以上的GPU
如果选择24G的GPU,在realtime推理时，请将batch_size调整到4以下
使用realtime推理可以生成数字人模型

使用方法

初始化环境

cd /root/workspace/MuseTalk
conda activate MuseTalk

普通推理

使用demo

# MuseTalk 1.5 (Recommended)效果更好
sh inference.sh v1.5 normal

# MuseTalk 1.0
sh inference.sh v1.0 normal

此时，生成的demo视频会在/root/workspace/MuseTalk/results/test目录下

使用自定义的素材进行推理
将要使用的音频文件放在/root/workspace/MuseTalk/data/audio目录下，音频文件需要是wav格式
将要使用的视频文件放在/root/workspace/MuseTalk/data/video目录下，视频文件需要是mp4格式,分辨率不要太高，建议480P或720P
修改/root/workspace/MuseTalk/configs/inference/test.yaml

# task_0:
#  video_path: "data/video/yongen.mp4"
#  audio_path: "data/audio/yongen.wav"

# task_1:
#  video_path: "data/video/yongen.mp4"
#  audio_path: "data/audio/eng.wav"
#  bbox_shift: -7

task_2:
 video_path: "data/video/test.mp4"
 audio_path: "data/audio/test.wav"

将原有的内容注释掉，在下面添加新的配置，例如task_2，将video_path和audio_path修改为你自己文件的路径

realtime推理

使用demo

# MuseTalk 1.5 (Recommended)
sh inference.sh v1.5 realtime

# MuseTalk 1.0
sh inference.sh v1.0 realtime

生成的视频会在/root/workspace/MuseTalk/results/avatars/avator_n/vid_output/ 或 /root/workspace/MuseTalk/results/v15/avatars/avator_n/vid_output/

avator_n是数字人的在配置文件中的id

avator_n这个文件夹就是数字人模型

使用自定义的素材进行推理
将要使用的音频文件放在/root/workspace/MuseTalk/data/audio目录下，音频文件需要是wav格式
将要使用的视频文件放在/root/workspace/MuseTalk/data/video目录下，视频文件需要是mp4格式,分辨率不要太高，建议480P或720P
修改/root/workspace/MuseTalk/configs/inference/realtime.yaml

# avator_1:
#  preparation: True # your can set it to False if you want to use the existing avator, it will save time
#  bbox_shift: 5
#  video_path: "data/video/yongen.mp4"
#  audio_clips:
#      audio_0: "data/audio/yongen.wav"
#      audio_1: "data/audio/eng.wav"
 
avator_2:
 preparation: True # your can set it to False if you want to use the existing avator, it will save time
 bbox_shift: 5
 video_path: "data/video/yongen.mp4"
 audio_clips:
     audio_0: "data/audio/yongen.wav"

将原有的内容注释掉，在下面添加新的配置，例如task_2，将video_path和audio_path修改为你自己文件的路径.

preparation为True表示会生成一个新的数字人模型，如果之前已经有数字人模型，你可以将这个值修改为False

训练

训练过程详见https://github.com/TMElyralab/MuseTalk

镜像信息

@有黑眼圈的小竹能

已使用75 次

运行时长

141 H

镜像大小

80GB

最后更新时间

2025-07-15

支持卡型

RTX40系48G RTX40系P40A100A8003090

框架版本

PyTorch-2.0.1

CUDA版本

12.4

应用

JupyterLab: 8888

版本

v1.0

2025-07-15

PyTorch:2.0.1 | CUDA:12.4 | 大小:80.00GB