登录
GLM-TTS
可控且富有情感表达的零样本TTS
1
0/小时
v1.0

GLM-TTS

GLM-TTS 是一个基于大型语言模型的文本到语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构:首先使用 LLM 生成语音标记序列,然后使用 Flow 模型将标记转换为高质量音频波形。通过引入多奖励强化学习框架,GLM-TTS 能够生成更具表现力和情感色彩的语音,显著提升传统 TTS 系统的表现力。

使用教程

0. 麻烦右上角点个收藏~

318e364f-9c65-489c-9391-b3fb6cd49c26.png

1. 在镜像详情界面点击“使用该镜像创建实例”

image.png

2. 选择GPU型号,再点击“立即部署”

image.png

3. 实例启动后,在控制台中点击“SD-WebUI”

image.png

4.浏览器如图显示,就说明启动成功了

image.png

5.如果页面无响应(比如此项目需要预加载模型,启动时间较长),点击“JupyterLab”,再双击log.txt可查看启动进度

image.png image.png

6.如果有报错的话,请下载log.txt发到下面的交流群中

image.png

十字鱼-镜像作者交流群

image

镜像信息
@十字鱼
十字鱼认证作者
支持自启动
已使用2
运行时长
0 H
镜像大小
70GB
最后更新时间
2025-12-13
支持卡型
RTX40系RTX50系48G RTX40系3080Ti3090A800H20A100
+8
框架版本
PyTorch-2.8.0
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.0
2025-12-13
PyTorch:2.8.0 | CUDA:12.8 | 大小:70.00GB