镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
数字人
MuseTalk
MuseTalk数字人模型
0.3/小时
v1.0

注意事项

  1. 建议选择显存48G及以上的GPU
  2. 如果选择24G的GPU,在realtime推理时,请将batch_size调整到4以下
  3. 使用realtime推理可以生成数字人模型

使用方法

初始化环境

cd /root/workspace/MuseTalk
conda activate MuseTalk

普通推理

  1. 使用demo
# MuseTalk 1.5 (Recommended)效果更好
sh inference.sh v1.5 normal

# MuseTalk 1.0
sh inference.sh v1.0 normal

此时,生成的demo视频会在/root/workspace/MuseTalk/results/test目录下

  1. 使用自定义的素材进行推理

  2. 将要使用的音频文件放在/root/workspace/MuseTalk/data/audio目录下,音频文件需要是wav格式

  3. 将要使用的视频文件放在/root/workspace/MuseTalk/data/video目录下,视频文件需要是mp4格式,分辨率不要太高,建议480P或720P

  4. 修改/root/workspace/MuseTalk/configs/inference/test.yaml

# task_0:
#  video_path: "data/video/yongen.mp4"
#  audio_path: "data/audio/yongen.wav"

# task_1:
#  video_path: "data/video/yongen.mp4"
#  audio_path: "data/audio/eng.wav"
#  bbox_shift: -7

task_2:
 video_path: "data/video/test.mp4"
 audio_path: "data/audio/test.wav"

将原有的内容注释掉,在下面添加新的配置,例如task_2,将video_path和audio_path修改为你自己文件的路径

realtime推理

  1. 使用demo
# MuseTalk 1.5 (Recommended)
sh inference.sh v1.5 realtime

# MuseTalk 1.0
sh inference.sh v1.0 realtime

生成的视频会在/root/workspace/MuseTalk/results/avatars/avator_n/vid_output/ 或 /root/workspace/MuseTalk/results/v15/avatars/avator_n/vid_output/

avator_n是数字人的在配置文件中的id

avator_n这个文件夹就是数字人模型

  1. 使用自定义的素材进行推理

  2. 将要使用的音频文件放在/root/workspace/MuseTalk/data/audio目录下,音频文件需要是wav格式

  3. 将要使用的视频文件放在/root/workspace/MuseTalk/data/video目录下,视频文件需要是mp4格式,分辨率不要太高,建议480P或720P

  4. 修改/root/workspace/MuseTalk/configs/inference/realtime.yaml

# avator_1:
#  preparation: True # your can set it to False if you want to use the existing avator, it will save time
#  bbox_shift: 5
#  video_path: "data/video/yongen.mp4"
#  audio_clips:
#      audio_0: "data/audio/yongen.wav"
#      audio_1: "data/audio/eng.wav"
 
avator_2:
 preparation: True # your can set it to False if you want to use the existing avator, it will save time
 bbox_shift: 5
 video_path: "data/video/yongen.mp4"
 audio_clips:
     audio_0: "data/audio/yongen.wav"

将原有的内容注释掉,在下面添加新的配置,例如task_2,将video_path和audio_path修改为你自己文件的路径.

preparation为True表示会生成一个新的数字人模型,如果之前已经有数字人模型,你可以将这个值修改为False

训练

训练过程详见https://github.com/TMElyralab/MuseTalk

镜像信息
@有黑眼圈的小竹能
已使用
4
镜像大小80GB
最近编辑2025-07-09
支持卡型
RTX40系48G RTX40系P40A100A8003090
+6
框架版本
PyTorch-2.0.1
CUDA版本
12.4
应用
JupyterLab: 8888
版本
v1.0
2025-07-09
PyTorch:2.0.1 | CUDA:12.4 | 大小:80.00GB