0SoulX-FlashTalk是Soul AI Lab开源的14B音频驱动数字人模型,为首个实现0.87s亚秒级启动延迟、8×H800节点32FPS实时吞吐的模型,主打超长视频稳定生成。
采用自纠正双向蒸馏技术,搭配延迟感知时空适配方案,解决数字人生成的身份漂移、画质下降问题,视觉保真度刷新纪录。
单卡推理需超48G显存,使用cpu offload方式可以运行,测试成功!



本手册指导用户如何使用 SoulX-FlashTalk 进行音频驱动的虚拟形象视频生成
项目仓库:https://github.com/kegeai888/SoulX-FlashTalk-webUI
在项目根目录下运行:
bash start_app.sh
启动成功后,浏览器访问:
http://localhost:7860http://[服务器IP]:7860WebUI 提供了 4 个主要功能标签页:
方式一:使用默认样例(最简单)
页面会自动加载默认样例:
man.pngtest.mp3直接点击"🚀 开始生成"即可!
方式二:使用页面底部的样例预览
方式三:上传自己的素材
上传图片:
上传音频:
文本提示词(可选修改):
A person is talking. Only the foreground characters are moving, the background remains static.
随机种子:
-1(随机生成)9999)CPU Offload:
| 音频时长 | 预计生成时间 | 显存使用 |
|---|---|---|
| 6-10秒 | 10-12分钟 | 30-40GB |
| 30-40秒 | 15-20分钟 | 30-40GB |
| 60秒以上 | 25-30分钟 | 30-40GB |
适用于拥有多张 GPU 的用户,可以显著加快推理速度。
0,1,2,3)SoulX-FlashTalk-14B
models/SoulX-FlashTalk-14B/chinese-wav2vec2-base
models/chinese-wav2vec2-base/查看系统信息和调整推理参数。
可以调整以下参数(仅会话级生效):
⚠️ 注意:修改这些参数可能影响生成质量,建议保持默认值。
python generate_video.py \
--ckpt_dir models/SoulX-FlashTalk-14B \
--wav2vec_dir models/chinese-wav2vec2-base \
--input_prompt "A person is talking. Only the foreground characters are moving, the background remains static." \
--cond_image examples/man.png \
--audio_path examples/test.mp3 \
--audio_encode_mode stream \
--cpu_offload
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nproc_per_node=8 generate_video.py \
--ckpt_dir models/SoulX-FlashTalk-14B \
--wav2vec_dir models/chinese-wav2vec2-base \
--input_prompt "A person is talking..." \
--cond_image examples/man.png \
--audio_path examples/test.mp3 \
--audio_encode_mode stream
生成的视频保存在:
outputs/outputs_YYYYMMDDHHMMSS.mp4sample_results/res_YYYYMMDD-HH:MM:SS-XXX.mp4解决方案:
# 方法1:使用启动脚本(会自动释放端口)
bash start_app.sh
# 方法2:手动释放端口
lsof -ti:7860 | xargs kill -9
解决方案:
显存需求:
原因:音频合并失败
解决方案:
ffmpeg -version解决方案:
# 使用国内镜像
export HF_ENDPOINT=https://hf-mirror.com
# 然后重新下载
huggingface-cli download Soul-AILab/SoulX-FlashTalk-14B --local-dir ./models/SoulX-FlashTalk-14B
排查步骤:
nvidia-smi优化建议:
| 参数 | 说明 | 默认值 | 推荐值 |
|---|---|---|---|
input_prompt | 文本提示词 | "A person is talking..." | 保持默认 |
cond_image | 条件图像路径 | - | 清晰正面照 |
audio_path | 音频文件路径 | - | 16kHz WAV/MP3 |
seed | 随机种子 | -1(随机) | -1 或固定值 |
cpu_offload | CPU 卸载 | True | True(48GB显存) |
audio_encode_mode | 音频编码模式 | stream | stream |
| 参数 | 说明 | 默认值 | 范围 |
|---|---|---|---|
frame_num | 每次生成帧数 | 33 | 20-50 |
tgt_fps | 目标帧率 | 25 | 24-30 |
sample_steps | 采样步数 | 4 | 4-8 |
height | 输出高度 | 768 | 512-1024 |
width | 输出宽度 | 448 | 384-768 |
⚠️ 注意:修改高级参数可能影响生成质量和速度,建议保持默认值。
图片要求:
音频要求:
首次使用:
正式使用:
批量生成:
如遇到问题,可以:
CLAUDE.md 文档todo.md 了解已知问题祝您使用愉快! 🎉
认证作者

支持自启动