VoxCPM全能生成_那颗星星自制节点
全网 最强大 最好用 功能最全面 的voxcpm工作流
这是一个专为 ComfyUI 设计的 VoxCPM 语音合成与训练工具包。它集成了音频生成、声音克隆、数据集准备和 LoRA 微调训练等一站式功能。
除了voxcpm2 也兼容了voxcpm0.5B和voxcpm1.5的老版本使用
通过原生且动态的 ComfyUI 节点界面,您可以轻松实现从单人配音到多角色对话的复杂音频工作流,并支持对模型进行定制化微调,训练lora。
✨ 核心特性
- 全能音频生成:支持 VoxCPM 和 VoxCPM2 架构,提供声音设计、极致克隆、常规克隆等多种模式。
- 多角色对话:内置强大的剧本解析引擎,只需通过简单的标签(如
[spk1]、[ctrl])即可生成带情感控制的多人对话。
- 自动化数据集准备:支持从单条长音频、批量音频或目录直接生成符合训练规范的
train.jsonl 数据集,内置自动静音切片和 FunASR 文本识别。
- 原生 LoRA 训练:无需配置复杂的命令行,在 ComfyUI 内即可直接启动 LoRA 训练,支持断点续训与参数深度自定义。
- 智能动态 UI:中英双语界面,节点会根据您选择的模式和模型架构自动显示或隐藏相关参数,保持工作区整洁。

🧩 节点详细说明
1. VoxCPM 全能生成 (Unified Generator)
这是音频生成的核心节点,融合了目前所有的推理能力。
核心模式:
- 声音设计 (Voice Design):纯文本到语音(TTS),VoxCPM2 专属,可结合“控制指令”引导发音情绪或特征。
- 极致克隆 (Ultimate Cloning):精准的声音克隆(Zero-shot TTS),需要提供参考音频和参考文本。
- 可控克隆 (Controllable Cloning):在声音克隆的基础上,融合控制指令改变输出情绪(VoxCPM2 专属)。
- 常规克隆 (Regular Cloning):适用于旧版 VoxCPM1.x 架构的标准克隆模式。
- 多人配音 (Multi-Speaker Dubbing):支持多角色混合发音,支持特定的标签语法。
多人配音语法示例:
在“目标文本”框中输入:
[ctrl]非常兴奋,大声地
[spk1] 欢迎使用 VoxCPM 节点!
[ctrl]低沉,平缓
[spk2] 这是一个多人对话演示。
[spk] 旁白也可以没有特定角色。
lora训练说明
10分钟的训练数据大概训练两到三千步即可