0IndexTTS2 中英视频智能配音与人声克隆镜像
本镜像是一个基于 IndexTTS2 的中英视频自动配音工具,适合将英文视频或音频批量转换为中文克隆配音。
本镜像构建和运行所需的基础环境。
conda activate indextts2
cd /root/projects/index-tts
checkpoints/
python webui.py --host 0.0.0.0 --port 7860
python batch_dub_ui.py
在浏览器中打开平台提供的公网访问地址或端口映射地址,进入 Gradio 页面。
上传以下文件:
英文原视频或英文原音频
中文 SRT 字幕文件
按 SRT 切分英文原声
提取每段参考音色
生成中文克隆配音
对齐每段字幕时长
合成完整中文音轨
导出最终音频文件
可以使用以下命令验证 GPU、Python、PyTorch 和 ffmpeg 是否正常:
nvidia-smi
python --version
python -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))"
ffmpeg -version
也可以验证 IndexTTS2 是否能正常导入:
python -c "from indextts.infer_v2 import IndexTTS2; print('IndexTTS2 import OK')"
启动批量配音界面:
python batch_dub_ui.py
如果终端显示类似下面内容,说明服务启动成功:
Running on local URL: http://0.0.0.0:7861
Q1:这个镜像可以直接上传一个小时的视频生成中文配音吗? A1: 可以。推荐上传英文原视频或原音频,并配套上传中文 SRT 文件。系统会按照 SRT 时间轴自动分段处理,适合长视频批量配音。
Q2:是否需要额外上传 10–15 秒参考人声音频? A2: 不需要。本镜像的批量配音流程会自动从英文原视频/音频中,根据每一条 SRT 的时间段切出对应英文原声,作为该段中文配音的参考音色。
Q3:为什么建议 SRT 每段控制在 3–8 秒? A3: 太短的片段参考音色不稳定,太长的片段容易导致语速、停顿和情绪不自然。3–8 秒通常更适合 IndexTTS2 批量生成自然的中文配音。
Q4:如果生成的中文音频太小声怎么办?
A4: 可以在最终音频导出后使用 loudnorm 做响度标准化,例如 loudnorm=I=-18:TP=-2:LRA=11,让音量更接近正常视频配音标准。
Q5:如果视频里有两个人对话怎么办? A5: 建议 SRT 中保留说话人标签,例如“保罗:”“萨古鲁:”。后续可以根据说话人分别切参考音频和生成不同音色,避免两个人的声音混在一起。
Q6:为什么有些生成结果结尾有空白? A6: 通常是因为 SRT 时间段过长,或中文文本过短。可以重新优化 SRT 切分,让每段字幕更贴近原声停顿和中文语速。
Q7:RTX 4090 24GB 是否够用? A7: 一般够用。IndexTTS2 推理和批量配音主要消耗 GPU 显存、生成时间和磁盘读写。RTX 4090 24GB 适合个人和小团队使用。
Q8:这个镜像适合什么用户? A8: 适合视频本地化创作者、AI 配音工作流开发者、播客翻译团队、课程翻译团队,以及需要将英文长视频批量转换为中文配音的用户。

支持自启动