0注意:本镜像需要用本人的软件来调用,才能正常使用,非webui版本谢谢~ 镜像简介
本镜像是一个面向 AI 语音研究与内容创作的一体化多模型 TTS(Text-to-Speech)与音色克隆运行环境。
功能:
支持 Zero-Shot / Few-Shot 语音克隆(仅需几秒参考音频即可模仿音色)。
覆盖中文、英文及多语种的高质量语音合成。
提供 WebUI 与 API 接口,方便本地调试、批量推理及云端服务化部署。
特点:
预装六大主流模型:GPT‑SoVITS, Index‑TTS, Qwen3‑TTS, VoxCPM1.5, F5‑TTS, OmniVoice。
环境标准化:基于 CUDA 12.1 + PyTorch 2.1.2,统一 Python 3.10 环境,避免版本冲突。
