登录
【Qwen3TTS】声音克隆 音色定制 长文本推理优化镜像
Qwen3TTS推理镜像
star3
0/小时
v1.0

镜像名称

Qwen3TTS的推理镜像,支持Base,VoiceClone,CustomVoice功能,启动时会自动启动Base模型

镜像简介

  • 功能: 这个镜像主要用于快捷的音色克隆和声音合成
  • 特点: 在Base模型中加入了对任意长度文本的音频合成的支持

环境与依赖

  • 框架及版本: PyTorch 2.8.0
  • CUDA版本: 12.8
  • 其他依赖: Python 3.12

配置方法

  1. 选择镜像选择合适的显卡部署启动,部署成功后会自动启动Base模型的WebUI。
  2. 待镜像启动后点击容器卡片右上角的Qwen3TTS WebUI即可, WebUI 需要一定时间才能启动,如果开始时不能进入WebUI只需等待数秒然后刷新即可

如果你想启动其他两个模型:

在容器的管理页面点击Jupyterlab,点击标签页旁边的"+"号,然后点击下方写着terminal的中终端,在终端里输入

netstat -tunlp | grep :8000

这时会有如下的返回值

tcp        0      0 0.0.0.0:8000            0.0.0.0:*               LISTEN      xx/python

此处的xx是一个数字,它代表了已经开启的WebUI对应的进程,我们需要先把它杀掉,否则没法启动新的WebUI,我们输入以下命令 ( 要把xx换为具体的数字)

kill xx

之后我们就可以启动新的WebUI了,输入

cd /workspace
python -m qwen_tts.cli.demo ./models/Qwen3-TTS-12Hz-1.7B-VoiceDesign

来启动VoiceDesign WebUI,或者输入

cd /workspace
python -m qwen_tts.cli.demo ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice

来启动CustomVoice WebUI

等待启动完成后,我们刷新一下刚刚的Qwen3TTS WebUI界面,就会变成新的WebUI了。如果你已经关闭了那个界面,那就复制Jupyterlab页面的URL,然后把8888/lab/tree/...全部删掉,然后输入8000即可,为了防止可能存在的错误,我应该提醒你其形式如下:

http://xxx.yy.zzz.aaa:8000

不要多,不要少

相关链接

常见问题

Q1: 应当使用什么GPU来启动实例? A1: 实际上过高的配置会导致性能过剩,这是由于官方给出的推理对GPU的有效率上的问题,使用3080Ti或24G "RTX40系"即可

@两只鸽子
镜像信息
已使用49
运行时长
88 H
支持自启动
镜像大小
50GB
最后更新时间
2026-02-07
支持卡型
RTX40系RTX50系48G RTX40系30903080TiA800H20P40V100SA100
+10
框架版本
PyTorch-2.8.0
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.0
2026-02-07
PyTorch:2.8.0 | CUDA:12.8 | 大小:50.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台