VoxCPM2语音克隆工作流LORA训练comfy支持一键部署

控制台

立即注册

VoxCPM2语音克隆工作流LORA训练comfy支持

VoxCPM2 TTS语音克隆工作流LORA训练comfy支持

0元/小时

v1.0

VoxCPM2tts 是一个支持 30+ 种语言的高质量 TTS（文字转语音）工具，支持声音克隆与 LoRA 训练，效果出色，尤其适合中文使用场景。

环境要求

推荐显卡：RTX 3090 或 4090（3090 及以上均可）

快速启动

部署完成后，点击打开 Jupyter
进入后选择第一个指令并运行启动
启动完毕后，点击 COMFY 即可打开主界面

云端环境已预配置好所有依赖，无需额外安装。

主要功能

功能	说明

| Ultimate Cloning | 完整声音克隆，效果最佳 ✅ 推荐 |

| Controllable Cloning | 可调节风格、情感、节奏的克隆 |

| Voice Design (VS Design) | 描述性语音生成，需填写性别、年龄、语速等参数 |

| Text to Speech | 纯文字转语音，不做克隆 |

注意： 日语在 Voice Design 模式下效果欠佳，建议使用中文。

使用 Ultimate Cloning

上传参考音频，设置 start_index（开始秒数）和 duration（时长秒）
填写提示词（即想让模型说的内容）
选择 mode 为 Ultimate Clone
运行工作流即可

音频无需完整上传，截取片段效果更好；5 分钟以上的音频建议直接训练 LoRA。

LoRA 训练

训练集准备

格式：WAV（无损，效果更好）+ 对应 TXT 文本（即音频转录内容）
时长：5~~10 分钟即可，20~~30 分钟效果可能更好，最少 1 分钟也能跑
数量：5~50 个 clips 适合单角色克隆，500 个以内用 LoRA，500 小时以上才需微调大模型
可使用 Whisper 节点对音频进行自动转录

⚠️ 文件名注意大小写：Linux 环境下 .wav 必须小写

训练步骤

将 WAV 和 TXT 文件放入 audio_f 文件夹，系统自动生成 train.json
在工作流中找到 LoRA 训练节点，直接运行（已预配置）
每 100 步自动保存一次，约 30 分钟内完成700步训练

查找训练好的 LoRA

路径：my_comfy → models → lora → VoxCPM

文件大小约 276 MB，可右键下载到本地保存。

测试 LoRA 效果

在 Testing 区域找到 LoRA Line 节点，选中刚训练的 LoRA 文件，直接运行即可测试效果。

@梦影Erislia

镜像信息

已使用67 次

运行时长

89 H

镜像大小

170GB

最后更新时间

2026-04-14

支持卡型

30903080Ti48G RTX40系RTX50系RTX40系H20P40V100SA100A800

+10

框架版本

PyTorch-2.9

CUDA版本

12.8

应用

JupyterLab: 8888

版本

v1.0

2026-04-14

PyTorch:2.9 | CUDA:12.8 | 大小:170.00GB

隶属于优刻得科技股份有限公司

股票代码：688158

优刻得是中立、安全的云计算服务平台

友情链接 :

优刻得

产品

GPU实例 GPU镜像社区模型API服务 Coding Plan

快速入口

文档中心 API文档用户协议

镜像合集

AI4S 数字人 TTS语音 Wan2.2 视频超分