优云智算
控制台
立即注册
ComfyUI_voxcpm全能生成_那颗星星(支持多人配音,支持lora训练,老版本支持)
最强大的VoxCPM节点,支持多人配音、支持训练lora(包含数据集准备节点,傻瓜式操作)、兼容老模型
star0
0/小时
v1.0
最新

VoxCPM全能生成_那颗星星自制节点

全网 最强大 最好用 功能最全面 的voxcpm工作流

这是一个专为 ComfyUI 设计的 VoxCPM 语音合成与训练工具包。它集成了音频生成、声音克隆、数据集准备和 LoRA 微调训练等一站式功能。

除了voxcpm2 也兼容了voxcpm0.5B和voxcpm1.5的老版本使用

通过原生且动态的 ComfyUI 节点界面,您可以轻松实现从单人配音到多角色对话的复杂音频工作流,并支持对模型进行定制化微调,训练lora。

✨ 核心特性

  • 全能音频生成:支持 VoxCPM 和 VoxCPM2 架构,提供声音设计、极致克隆、常规克隆等多种模式。
  • 多角色对话:内置强大的剧本解析引擎,只需通过简单的标签(如 [spk1][ctrl])即可生成带情感控制的多人对话。
  • 自动化数据集准备:支持从单条长音频、批量音频或目录直接生成符合训练规范的 train.jsonl 数据集,内置自动静音切片和 FunASR 文本识别。
  • 原生 LoRA 训练:无需配置复杂的命令行,在 ComfyUI 内即可直接启动 LoRA 训练,支持断点续训与参数深度自定义。
  • 智能动态 UI:中英双语界面,节点会根据您选择的模式和模型架构自动显示或隐藏相关参数,保持工作区整洁。 image.png

🧩 节点详细说明

1. VoxCPM 全能生成 (Unified Generator)

这是音频生成的核心节点,融合了目前所有的推理能力。

核心模式:

  • 声音设计 (Voice Design):纯文本到语音(TTS),VoxCPM2 专属,可结合“控制指令”引导发音情绪或特征。
  • 极致克隆 (Ultimate Cloning):精准的声音克隆(Zero-shot TTS),需要提供参考音频和参考文本。
  • 可控克隆 (Controllable Cloning):在声音克隆的基础上,融合控制指令改变输出情绪(VoxCPM2 专属)。
  • 常规克隆 (Regular Cloning):适用于旧版 VoxCPM1.x 架构的标准克隆模式。
  • 多人配音 (Multi-Speaker Dubbing):支持多角色混合发音,支持特定的标签语法。

多人配音语法示例:

在“目标文本”框中输入:

[ctrl]非常兴奋,大声地
[spk1] 欢迎使用 VoxCPM 节点!
[ctrl]低沉,平缓
[spk2] 这是一个多人对话演示。
[spk] 旁白也可以没有特定角色。

lora训练说明 10分钟的训练数据大概训练两到三千步即可

@那颗星星
镜像信息
已使用0
运行时长
0 H
支持自启动
镜像大小
80GB
最后更新时间
2026-04-14
支持卡型
3080TiRTX40系RTX50系48G RTX40系2080Ti30902080
+7
框架版本
PyTorch-2.8
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.0
2026-04-14
PyTorch:2.8 | CUDA:12.8 | 大小:80.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台