3本镜像搭载Qwen3-TTS-0.6B语音合成系统,集成flash-attn加速技术,推理速度提升显著,支持音色保存、API调用与超长文本处理。兼容50系显卡,具备语速调节、音频超分降噪等功能,并可对接开源阅读工具,适用于有声内容制作、语音助手、播客生成及无障碍服务等高质量文本转语音场景。
该镜像支持自启动,初始化后,需要等待服务启动,大概2分钟左右
随后点击 SD-WEBUI 按钮即可,上传音色文件或者选择音色,点击生成即可

也支持音色设计

支持接口调用
接口格式:http://你的实例ip:8188/?text=你好,测试一下&speaker=陕西话 其他参数:chunk batch speed

认证作者

支持自启动