控制台

立即注册

ComfyUI_voxcpm全能生成_那颗星星(支持多人配音，支持lora训练，老版本支持)

最强大的VoxCPM节点，支持多人配音、支持训练lora(包含数据集准备节点，傻瓜式操作)、兼容老模型

0元/小时

v1.1

v1.0

VoxCPM全能生成_那颗星星自制节点

全网最强大最好用功能最全面的voxcpm工作流

这是一个专为 ComfyUI 设计的 VoxCPM 语音合成与训练工具包。它集成了音频生成、声音克隆、数据集准备和 LoRA 微调训练等一站式功能。

除了voxcpm2 也兼容了voxcpm0.5B和voxcpm1.5的老版本使用

通过原生且动态的 ComfyUI 节点界面，您可以轻松实现从单人配音到多角色对话的复杂音频工作流，并支持对模型进行定制化微调，训练lora。

✨ 核心特性

全能音频生成：支持 VoxCPM 和 VoxCPM2 架构，提供声音设计、极致克隆、常规克隆等多种模式。
多角色对话：内置强大的剧本解析引擎，只需通过简单的标签（如 [spk1]、[ctrl]）即可生成带情感控制的多人对话。
自动化数据集准备：支持从单条长音频、批量音频或目录直接生成符合训练规范的 train.jsonl 数据集，内置自动静音切片和 FunASR 文本识别。
原生 LoRA 训练：无需配置复杂的命令行，在 ComfyUI 内即可直接启动 LoRA 训练，支持断点续训与参数深度自定义。
智能动态 UI：中英双语界面，节点会根据您选择的模式和模型架构自动显示或隐藏相关参数，保持工作区整洁。

🧩 节点详细说明

1. VoxCPM 全能生成 (Unified Generator)

这是音频生成的核心节点，融合了目前所有的推理能力。

核心模式：

声音设计 (Voice Design)：纯文本到语音（TTS），VoxCPM2 专属，可结合“控制指令”引导发音情绪或特征。
极致克隆 (Ultimate Cloning)：精准的声音克隆（Zero-shot TTS），需要提供参考音频和参考文本。
可控克隆 (Controllable Cloning)：在声音克隆的基础上，融合控制指令改变输出情绪（VoxCPM2 专属）。
常规克隆 (Regular Cloning)：适用于旧版 VoxCPM1.x 架构的标准克隆模式。
多人配音 (Multi-Speaker Dubbing)：支持多角色混合发音，支持特定的标签语法。

多人配音语法示例：

在“目标文本”框中输入：

[ctrl]非常兴奋，大声地
[spk1] 欢迎使用 VoxCPM 节点！
[ctrl]低沉，平缓
[spk2] 这是一个多人对话演示。
[spk] 旁白也可以没有特定角色。

lora训练说明 10分钟的训练数据大概训练两到三千步即可

@那颗星星

镜像信息

已使用127 次

运行时长

417 H

支持自启动

镜像大小

80GB

最后更新时间

2026-04-15

支持卡型

3090RTX40系RTX50系48G RTX40系3080Ti2080Ti2080

框架版本

PyTorch-2.8

CUDA版本

12.8

应用

JupyterLab: 8888

版本

v1.1

2026-04-15

PyTorch:2.8 | CUDA:12.8 | 大小:80.00GB

v1.0

2026-04-14

PyTorch:2.8 | CUDA:12.8 | 大小:80.00GB

隶属于优刻得科技股份有限公司

股票代码：688158

优刻得是中立、安全的云计算服务平台

友情链接 :

优刻得

产品

GPU实例 GPU镜像社区模型API服务 Coding Plan

快速入口

文档中心 API文档用户协议

镜像合集

AI4S 数字人 TTS语音 Wan2.2 视频超分