控制台

立即注册

Index TTS2长视频配音

本镜像是一个基于 IndexTTS2 的中英视频自动配音工具，适合将英文视频或音频批量转换为中文克隆配音。

0.01元/小时

v1.0

镜像名称

IndexTTS2 中英视频智能配音与人声克隆镜像

镜像简介

本镜像是一个基于 IndexTTS2 的中英视频自动配音工具，适合将英文视频或音频批量转换为中文克隆配音。

功能： 这个镜像主要用于上传英文原视频/音频与中文 SRT 字幕文件，系统会自动按照 SRT 时间轴切分原英文人声，将每一段原声作为参考音色，调用 IndexTTS2 批量生成对应的中文配音，并输出完整对齐时间轴的中文音轨。
特点： 预装了 IndexTTS2、CUDA、PyTorch、ffmpeg、Gradio 等运行环境，支持网页可视化操作，一键上传音频与字幕文件，即可自动完成参考音频切割、中文配音生成、音频时长对齐和最终音轨导出。
适用场景： 英文访谈、课程、播客、演讲、长视频的中文 AI 配音制作，尤其适合需要保留原说话人音色和语气特征的中英视频本地化项目。

环境与依赖

本镜像构建和运行所需的基础环境。

框架及版本： PyTorch 2.x，IndexTTS2
CUDA版本： CUDA 12.x / CUDA 13.x，具体以当前镜像环境为准
Python版本： Python 3.10
其他依赖： ffmpeg、Gradio、pydub、srt、huggingface_hub、modelscope、git、git-lfs
推荐硬件： NVIDIA RTX 4090 24GB 或更高显存 GPU
系统环境： Ubuntu 22.04

配置方法

启动镜像后，进入终端并激活环境：

conda activate indextts2

cd /root/projects/index-tts

确认模型文件已经放置在：

checkpoints/

启动原版 IndexTTS2 WebUI：

python webui.py --host 0.0.0.0 --port 7860

启动中英视频自动配音界面：

python batch_dub_ui.py

在浏览器中打开平台提供的公网访问地址或端口映射地址，进入 Gradio 页面。
上传以下文件：

英文原视频或英文原音频
中文 SRT 字幕文件

点击开始生成，系统会自动完成：

按 SRT 切分英文原声
提取每段参考音色
生成中文克隆配音
对齐每段字幕时长
合成完整中文音轨
导出最终音频文件

环境验证代码

可以使用以下命令验证 GPU、Python、PyTorch 和 ffmpeg 是否正常：

nvidia-smi

python --version

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))"

ffmpeg -version

也可以验证 IndexTTS2 是否能正常导入：

python -c "from indextts.infer_v2 import IndexTTS2; print('IndexTTS2 import OK')"

启动批量配音界面：

python batch_dub_ui.py

如果终端显示类似下面内容，说明服务启动成功：

Running on local URL: http://0.0.0.0:7861

常见问题

Q1：这个镜像可以直接上传一个小时的视频生成中文配音吗？ A1： 可以。推荐上传英文原视频或原音频，并配套上传中文 SRT 文件。系统会按照 SRT 时间轴自动分段处理，适合长视频批量配音。

Q2：是否需要额外上传 10–15 秒参考人声音频？ A2： 不需要。本镜像的批量配音流程会自动从英文原视频/音频中，根据每一条 SRT 的时间段切出对应英文原声，作为该段中文配音的参考音色。

Q3：为什么建议 SRT 每段控制在 3–8 秒？ A3： 太短的片段参考音色不稳定，太长的片段容易导致语速、停顿和情绪不自然。3–8 秒通常更适合 IndexTTS2 批量生成自然的中文配音。

Q4：如果生成的中文音频太小声怎么办？ A4： 可以在最终音频导出后使用 loudnorm 做响度标准化，例如 loudnorm=I=-18:TP=-2:LRA=11，让音量更接近正常视频配音标准。

Q5：如果视频里有两个人对话怎么办？ A5： 建议 SRT 中保留说话人标签，例如“保罗：”“萨古鲁：”。后续可以根据说话人分别切参考音频和生成不同音色，避免两个人的声音混在一起。

Q6：为什么有些生成结果结尾有空白？ A6： 通常是因为 SRT 时间段过长，或中文文本过短。可以重新优化 SRT 切分，让每段字幕更贴近原声停顿和中文语速。

Q7：RTX 4090 24GB 是否够用？ A7： 一般够用。IndexTTS2 推理和批量配音主要消耗 GPU 显存、生成时间和磁盘读写。RTX 4090 24GB 适合个人和小团队使用。

Q8：这个镜像适合什么用户？ A8： 适合视频本地化创作者、AI 配音工作流开发者、播客翻译团队、课程翻译团队，以及需要将英文长视频批量转换为中文配音的用户。

镜像信息

已使用18 次

运行时长

15 H

支持自启动

镜像大小

60GB

最后更新时间

2026-05-20

支持卡型

RTX40系

框架版本

PyTorch-13.0

CUDA版本

13.0

应用

JupyterLab: 8888

版本

v1.0

2026-05-20

PyTorch:13.0 | CUDA:13.0 | 大小:60.00GB

隶属于优刻得科技股份有限公司

股票代码：688158

优刻得是中立、安全的云计算服务平台

友情链接 :

优刻得

产品

GPU实例 GPU镜像社区模型API服务 Coding Plan

快速入口

文档中心 API文档用户协议

镜像合集

AI4S 数字人 TTS语音 Wan2.2 视频超分