优云智算
控制台
立即注册
VoxCPM2语音克隆工作流LORA训练comfy支持
VoxCPM2 TTS语音克隆工作流LORA训练comfy支持
star0
0/小时
v1.0
最新

VoxCPM2tts 是一个支持 30+ 种语言的高质量 TTS(文字转语音)工具,支持声音克隆与 LoRA 训练,效果出色,尤其适合中文使用场景。


环境要求

  • 推荐显卡:RTX 3090 或 4090(3090 及以上均可)

快速启动

  1. 部署完成后,点击打开 Jupyter
  2. 进入后选择第一个指令并运行启动
  3. 启动完毕后,点击 COMFY 即可打开主界面

云端环境已预配置好所有依赖,无需额外安装。


主要功能

功能说明

| Ultimate Cloning | 完整声音克隆,效果最佳 ✅ 推荐 |

| Controllable Cloning | 可调节风格、情感、节奏的克隆 |

| Voice Design (VS Design) | 描述性语音生成,需填写性别、年龄、语速等参数 |

| Text to Speech | 纯文字转语音,不做克隆 |

注意: 日语在 Voice Design 模式下效果欠佳,建议使用中文。


使用 Ultimate Cloning

  1. 上传参考音频,设置 start_index(开始秒数)和 duration(时长秒)
  2. 填写提示词(即想让模型说的内容)
  3. 选择 modeUltimate Clone
  4. 运行工作流即可

音频无需完整上传,截取片段效果更好;5 分钟以上的音频建议直接训练 LoRA。


LoRA 训练

训练集准备

  • 格式:WAV(无损,效果更好)+ 对应 TXT 文本(即音频转录内容)
  • 时长:510 分钟即可,2030 分钟效果可能更好,最少 1 分钟也能跑
  • 数量:5~50 个 clips 适合单角色克隆,500 个以内用 LoRA,500 小时以上才需微调大模型
  • 可使用 Whisper 节点对音频进行自动转录

⚠️ 文件名注意大小写:Linux 环境下 .wav 必须小写

训练步骤

  1. 将 WAV 和 TXT 文件放入 audio_f 文件夹,系统自动生成 train.json
  2. 在工作流中找到 LoRA 训练节点,直接运行(已预配置)
  3. 100 步自动保存一次,约 30 分钟内完成700步训练

查找训练好的 LoRA

路径:my_comfy → models → lora → VoxCPM

文件大小约 276 MB,可右键下载到本地保存。

测试 LoRA 效果

Testing 区域找到 LoRA Line 节点,选中刚训练的 LoRA 文件,直接运行即可测试效果。

@梦影Erislia
镜像信息
已使用2
运行时长
0 H
镜像大小
170GB
最后更新时间
2026-04-14
支持卡型
30903080Ti48G RTX40系RTX50系RTX40系H20P40V100SA100A800
+10
框架版本
PyTorch-2.9
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.0
2026-04-14
PyTorch:2.9 | CUDA:12.8 | 大小:170.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台