优云智算
控制台
立即注册
Index TTS2长视频配音
本镜像是一个基于 IndexTTS2 的中英视频自动配音工具,适合将英文视频或音频批量转换为中文克隆配音。
star0
0.01/小时
v1.0
最新

镜像名称

IndexTTS2 中英视频智能配音与人声克隆镜像

镜像简介

本镜像是一个基于 IndexTTS2 的中英视频自动配音工具,适合将英文视频或音频批量转换为中文克隆配音。

  • 功能: 这个镜像主要用于上传英文原视频/音频与中文 SRT 字幕文件,系统会自动按照 SRT 时间轴切分原英文人声,将每一段原声作为参考音色,调用 IndexTTS2 批量生成对应的中文配音,并输出完整对齐时间轴的中文音轨。
  • 特点: 预装了 IndexTTS2、CUDA、PyTorch、ffmpeg、Gradio 等运行环境,支持网页可视化操作,一键上传音频与字幕文件,即可自动完成参考音频切割、中文配音生成、音频时长对齐和最终音轨导出。
  • 适用场景: 英文访谈、课程、播客、演讲、长视频的中文 AI 配音制作,尤其适合需要保留原说话人音色和语气特征的中英视频本地化项目。

环境与依赖

本镜像构建和运行所需的基础环境。

  • 框架及版本: PyTorch 2.x,IndexTTS2
  • CUDA版本: CUDA 12.x / CUDA 13.x,具体以当前镜像环境为准
  • Python版本: Python 3.10
  • 其他依赖: ffmpeg、Gradio、pydub、srt、huggingface_hub、modelscope、git、git-lfs
  • 推荐硬件: NVIDIA RTX 4090 24GB 或更高显存 GPU
  • 系统环境: Ubuntu 22.04

配置方法

  1. 启动镜像后,进入终端并激活环境:
conda activate indextts2
  1. 进入项目目录:
cd /root/projects/index-tts
  1. 确认模型文件已经放置在:
checkpoints/
  1. 启动原版 IndexTTS2 WebUI:
python webui.py --host 0.0.0.0 --port 7860
  1. 启动中英视频自动配音界面:
python batch_dub_ui.py
  1. 在浏览器中打开平台提供的公网访问地址或端口映射地址,进入 Gradio 页面。

  2. 上传以下文件:

英文原视频或英文原音频
中文 SRT 字幕文件
  1. 点击开始生成,系统会自动完成:
按 SRT 切分英文原声
提取每段参考音色
生成中文克隆配音
对齐每段字幕时长
合成完整中文音轨
导出最终音频文件

环境验证代码

可以使用以下命令验证 GPU、Python、PyTorch 和 ffmpeg 是否正常:

nvidia-smi
python --version
python -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))"
ffmpeg -version

也可以验证 IndexTTS2 是否能正常导入:

python -c "from indextts.infer_v2 import IndexTTS2; print('IndexTTS2 import OK')"

启动批量配音界面:

python batch_dub_ui.py

如果终端显示类似下面内容,说明服务启动成功:

Running on local URL: http://0.0.0.0:7861

相关链接

常见问题

Q1:这个镜像可以直接上传一个小时的视频生成中文配音吗? A1: 可以。推荐上传英文原视频或原音频,并配套上传中文 SRT 文件。系统会按照 SRT 时间轴自动分段处理,适合长视频批量配音。

Q2:是否需要额外上传 10–15 秒参考人声音频? A2: 不需要。本镜像的批量配音流程会自动从英文原视频/音频中,根据每一条 SRT 的时间段切出对应英文原声,作为该段中文配音的参考音色。

Q3:为什么建议 SRT 每段控制在 3–8 秒? A3: 太短的片段参考音色不稳定,太长的片段容易导致语速、停顿和情绪不自然。3–8 秒通常更适合 IndexTTS2 批量生成自然的中文配音。

Q4:如果生成的中文音频太小声怎么办? A4: 可以在最终音频导出后使用 loudnorm 做响度标准化,例如 loudnorm=I=-18:TP=-2:LRA=11,让音量更接近正常视频配音标准。

Q5:如果视频里有两个人对话怎么办? A5: 建议 SRT 中保留说话人标签,例如“保罗:”“萨古鲁:”。后续可以根据说话人分别切参考音频和生成不同音色,避免两个人的声音混在一起。

Q6:为什么有些生成结果结尾有空白? A6: 通常是因为 SRT 时间段过长,或中文文本过短。可以重新优化 SRT 切分,让每段字幕更贴近原声停顿和中文语速。

Q7:RTX 4090 24GB 是否够用? A7: 一般够用。IndexTTS2 推理和批量配音主要消耗 GPU 显存、生成时间和磁盘读写。RTX 4090 24GB 适合个人和小团队使用。

Q8:这个镜像适合什么用户? A8: 适合视频本地化创作者、AI 配音工作流开发者、播客翻译团队、课程翻译团队,以及需要将英文长视频批量转换为中文配音的用户。

@
镜像信息
已使用0
运行时长
0 H
支持自启动
镜像大小
60GB
最后更新时间
2026-05-20
支持卡型
RTX40系
+1
框架版本
PyTorch-13.0
CUDA版本
13.0
应用
JupyterLab: 8888
版本
v1.0
2026-05-20
PyTorch:13.0 | CUDA:13.0 | 大小:60.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台