0


本文只讲怎么使用,不讲安装搭建。
在项目根目录运行:
bash start_app.sh
脚本会自动做这些事:
py312 环境。7860。7860 已被旧 WebUI 占用,直接结束旧进程。0.0.0.0:7860 对外监听。quality_48gb。启动后浏览器访问:
http://服务器IP:7860
本机访问:
http://127.0.0.1:7860
默认档位是 quality_48gb。
这个档位用于单卡 48GB 生产运行:
480p480x83277304.0torch.compile注意:
legacy_full 才保留原始 93 帧流程。实测经验:
480x832 / 93帧 / 50步 原始流程可能达到显存峰值并 OOM;当前默认生产档已改为 480x832 / 77帧 / 30步。77 帧,并启用分阶段 CPU offload,优先规避 48GB 单卡 OOM。WebUI 顶部是功能标签页:
每个生成页右侧都有:
生成结果默认保存到:
outputs/
文件名格式类似:
outputs_20260524153022_t2v.mp4
WebUI 会缓存当前正在使用的推理模型。
规则:
会触发重新加载的常见情况:
“释放模型显存”按钮:
用途:只输入文字,生成视频。
操作:
42。提示词建议:
示例:
一名年轻女性站在雨后的城市街道上,手持透明雨伞,慢慢转身看向镜头,霓虹灯反射在地面,电影感,真实摄影风格。
用途:上传一张图片,让图片动起来。
操作:
建议:
用途:上传一段已有视频,继续生成后续内容。
操作:
说明:
建议:
用途:先生成第一段,再用视频续写方式生成更多段。
操作:
说明:
建议:
用途:给每一段写不同提示词,生成有剧情变化的视频。
操作:
示例:
一名宇航员站在红色沙漠中,看向远处的基地。
宇航员慢慢走向基地,身后扬起尘土。
基地大门打开,蓝色灯光照亮宇航员的面罩。
说明:
用途:一个人物,根据一段音频生成说话视频。
操作:
avatar-v1.5。ai2v:音频 + 图片生成视频。at2v:音频 + 文本生成视频。ai2v 模式下上传参考图。quality_48gb 档下:
avatar-v1.5 会自动使用 Distill。avatar-v1.5 会自动使用 INT8。Prompt 建议:
示例:
一名年轻男性坐在办公室桌前,自然地面对镜头说话,穿白色衬衫,背景是整洁的书架,真实摄影风格。
用途:两个人物或两个音频流驱动同一画面。
操作:
avatar-v1.5。音频模式:
para:并行说话,适合两段长度接近的音频。add:顺序拼接,通常人物 1 先说,人物 2 后说。高级 bbox:
格式示例:
{
"person1": [100, 80, 500, 360],
"person2": [100, 420, 500, 700]
}
Avatar 页支持上传 JSON。
上传 JSON 后,界面里的部分输入会被 JSON 内容替代。
单音频 JSON 示例:
{
"prompt": "一个人在镜头前自然说话",
"cond_image": "/path/to/person.png",
"cond_audio": {
"person1": "/path/to/audio.wav"
}
}
多音频 JSON 示例:
{
"prompt": "两个人坐在沙发上交谈",
"cond_image": "/path/to/two_people.png",
"cond_audio": {
"person1": "/path/to/audio1.wav",
"person2": "/path/to/audio2.wav"
},
"audio_type": "para"
}
打开“模型下载/环境状态”。
可以看到:
按钮:
如果生成过多个任务后显存压力变大,先点“释放模型显存”。 正常连续使用时不必每次点击。相同模型会复用,不会重复加载。
如果要确认模型、GPU、依赖、输出视频链路是否正常,可以运行全量冒烟脚本:
python scripts/run_inference_smoke.py
脚本会顺序跑:
输出目录:
outputs/smoke/
日志目录:
outputs/logs/
已生成视频示例:
outputs/smoke/t2v/output_t2v.mp4
outputs/smoke/i2v/output_i2v.mp4
outputs/smoke/vc/output_vc.mp4
outputs/smoke/long_video/output_long_video_1.mp4
outputs/smoke/interactive_video/output_interactive_1.mp4
outputs/smoke/avatar_single/ai2v_demo_1.mp4
outputs/smoke/avatar_multi/ai2v_demo_1.mp4
说明:
ffprobe 读取。WebUI 不会完全照搬冒烟脚本参数。
WebUI 对齐的是:
WebUI 不对齐的是:
--smoke_only原因:
如果只是想快速确认环境是否可用,先跑冒烟脚本。
如果要正式出片,用 WebUI。
直接运行:
bash start_app.sh
脚本会自动结束占用 7860 的旧进程,不需要手动确认。
确认访问的是:
http://服务器IP:7860
不是:
http://127.0.0.1:7860
还要确认服务器防火墙、安全组放行了 7860。
默认 quality_48gb 档要求接近 48GB 的总显存和空闲显存。
如果 GPU 小于 48GB,或显存已被其他任务占用,会直接拒绝生成。
当前判断允许少量容差:
处理:
显存检查只判断能不能尝试运行。
真实推理峰值还受这些影响:
torch.compile如果 OOM:
第一次会加载模型到显存。
第二次如果模型配置相同,会复用缓存模型,不重新加载。
如果切换到不同模型,WebUI 会先卸载旧模型,再加载新模型,所以会再次变慢。
不会。
WebUI 会等待当前推理结束,再卸载旧模型并加载新模型。
默认 quality_48gb 是生产档。
为了稳定运行,分辨率、步数、Distill、INT8 等部分参数会被固定。
在项目目录:
outputs/
WebUI 右侧也会显示下载文件。
冒烟脚本结果在:
outputs/smoke/
冒烟脚本日志在:
outputs/logs/
正向提示词必须填写。
只填负向提示词不能生成。
至少需要两行有效提示词。
每一行是一段。
最少需要:
ai2v 模式建议同时上传参考图。
最少需要:
两个音频都上传,效果更符合多人物对话。
para 和 add 怎么选?para。add。基础视频模型默认由模型配置启用 FlashAttention-2。
当前 48GB 生产档关闭的是 torch.compile,不是 FlashAttention。
命令行入口可用:
--production_profile legacy_full
WebUI 默认不建议普通用户切换。生产使用推荐保持 quality_48gb。
可能。
冒烟脚本使用低显存参数,只证明环境、模型、推理链路、视频输出正常。
WebUI 默认生产档参数更高,显存峰值更高。
当前日志显示:
CUDAExecutionProvider not available in ONNXruntime
含义:
这会影响音频分离速度,不代表视频生成没用 GPU。
认证作者
