0
【插入一个小广告 给需要使用各种大模型和ai模型的多一个选择】: 【好消息】欢迎测试使用! 1.api中转站【推荐】,全球最卷,有些比官网便宜90+%: https://ai.kegeai.top/register?aff=78Gs
工作流有sora,veo3,grok3等ai视频生成,谷歌香蕉修图,gpt,gemini3,claude,deepseek等等500+模型api
注册帮助: https://kege-aigc.feishu.cn/docx/Gr5wddbYwogvkSxYfdxc7ou1nFb?from=from_copylink
基于 ComfyUI 的零样本多语言语音合成工具 — 支持声音克隆、声音设计、多人对话,覆盖 600+ 种语言。
启动 ComfyUI 后,在浏览器中打开界面(通常为 http://127.0.0.1:8188)。
在 ComfyUI 界面中:
.json 文件到画布)四个预设工作流位于:
ComfyUI/user/default/workflows/
├── 1.单人声音克隆.json
├── 2.单人长文本声音克隆.json
├── 3.声音设计 捏一个声音.json
└── 4.多人对话.json
首次运行时,插件会自动从 HuggingFace 下载所需的模型文件(约 2-4GB),请耐心等待。下载完成后即可正常使用。
| 功能 | 对应节点 | 适用场景 |
|---|---|---|
| 单人声音克隆 | OmniVoice Voice Clone TTS | 用 3-15 秒参考音频克隆声音,生成短文本语音 |
| 单人长文本声音克隆 | OmniVoice Longform TTS | 克隆声音后生成长篇文章、小说等 |
| 声音设计 | OmniVoice Voice Design TTS | 无需参考音频,用文字描述创建声音 |
| 多人对话 | OmniVoice Multi-Speaker TTS | 生成两人或多人对话、广播剧等 |
工作流文件: 1.单人声音克隆.json
用一段 3-15 秒的参考音频克隆某个人的声音,然后用这个声音朗读你输入的文本。
1.单人声音克隆.jsonref_audio 输入端上传参考音频文件(3-15 秒效果最佳)ref_text 可提高克隆质量;留空则自动识别text 参数中输入你想让克隆声音朗读的内容工作流文件: 2.单人长文本声音克隆.json
克隆声音后,生成长篇文章、小说章节、播客脚本等长文本语音。
2.单人长文本声音克隆.jsonref_audio 输入端上传参考音频text 参数中输入长篇文章words_per_chunk 参数(默认 100),控制每次处理的词数words_per_chunk = 0 表示不分块,一次性处理(适合中等长度文本)工作流文件: 3.声音设计 捏一个声音.json
不需要任何参考音频,直接用文字描述来"捏"一个声音。可以控制性别、年龄、音调、口音等属性。
3.声音设计 捏一个声音.jsonvoice_instruct 参数中用英文描述你想要的声音特征text 参数中输入朗读内容用逗号分隔各个属性,例如:
female, young, high pitch, british accent
male, middle-aged, low pitch, whisper
| 类别 | 可选值 |
|---|---|
| 性别 | male(男)、female(女) |
| 年龄 | child(儿童)、young(青年)、middle-aged(中年)、elderly(老年) |
| 音调 | very low pitch、low pitch、medium pitch、high pitch、very high pitch |
| 风格 | whisper(耳语) |
| 英语口音 | american accent、british accent、australian accent 等 |
| 汉语方言 | 四川话、陕西话、广东话、东北话、山东话、河南话、上海话、闽南话、客家话 等 |
seed(随机种子)重新生成工作流文件: 4.多人对话.json
生成两人或多人对话,适用于广播剧、有声漫画、客服对话等场景。
4.多人对话.jsonnum_speakers 参数(2-10 人)[Speaker_N]: 标签标记每个说话人的台词,例如:[Speaker_1]: 你好,我是小明。
[Speaker_2]: 你好小明,我是小红!
[Speaker_1]: 很高兴认识你!
[Speaker_2]: 我也是!
speaker_N_audio 参考音频,可以为每个角色克隆不同的声音;不连接则使用随机生成的声音pause_between_speakers 参数控制说话人切换时的静音时长(默认 0.3 秒)[Speaker_1]、[Speaker_2]、[Speaker_3]...: 是必须的| 参数 | 说明 | 推荐值 |
|---|---|---|
| model | 选择使用的模型 | OmniVoice-bf16(显存友好)或 OmniVoice(最高质量) |
| text | 要合成的文本内容 | 任意文本 |
| steps | 扩散步数,越高质量越好但越慢 | 16(快速)、32(平衡)、64(最佳质量) |
| guidance_scale | 文本对齐强度 | 默认 2.0,越高越严格按照文本生成 |
| speed | 语速 | 1.0 正常,>1.0 加快,<1.0 减慢 |
| duration | 固定输出时长(秒) | 0 表示自动,设定时会覆盖 speed |
| seed | 随机种子 | 0 为随机,固定数字可复现结果 |
| device | 运行设备 | auto(自动选择)、cuda(GPU)、cpu |
| dtype | 精度 | auto、bf16(推荐)、fp16、fp32 |
| attention | 注意力后端 | auto(默认)、eager、sage_attention(需 SM80+ GPU) |
| 参数 | 说明 | 推荐值 |
|---|---|---|
| position_temperature | 掩码位置选择的随机性 | 0 为确定性,5.0 为默认平衡值 |
| class_temperature | 采样的随机性 | 0 为确定性,越高变化越多 |
| layer_penalty_factor | 深层码本惩罚因子 | 默认 5.0,通常不需要调整 |
| denoise | 添加去噪 token 以获得更干净输出 | 建议开启 True |
| preprocess_prompt | 预处理参考音频(去静音、加标点) | 建议开启 True |
| postprocess_output | 后处理输出音频(去除长静音) | 建议开启 True |
| keep_model_loaded | 保持模型在显存中 | True 可加快连续生成,显存不足时设为 False |
| 参数 | 说明 |
|---|---|
| ref_audio | 参考音频(3-15 秒),必填(长文本节点中可选) |
| ref_text | 参考音频的文本内容,留空自动识别 |
| 参数 | 说明 |
|---|---|
| words_per_chunk | 每块词数,0 表示不分块 |
| 参数 | 说明 |
|---|---|
| num_speakers | 说话人数量(2-10) |
| pause_between_speakers | 说话人之间的静音秒数 |
| speaker_N_audio | 第 N 个说话人的参考音频(可选) |
| speaker_N_ref_text | 第 N 个说话人参考音频的文本(可选) |
在文本中直接插入以下标签,可以生成丰富的非语言表达:
| 标签 | 效果 |
|---|---|
[laughter] | 笑声 |
[sigh] | 叹气 |
[sniff] | 吸鼻子 |
[question-en] / [question-ah] / [question-oh] | 疑问语气 |
[surprise-ah] / [surprise-oh] / [surprise-wa] / [surprise-yo] | 惊讶语气 |
[dissatisfaction-hnn] | 不满 |
[confirmation-en] | 确认 |
[laughter] 你真是把我逗乐了![sigh] 我完全没想到会这样。
[Speaker_1]: [surprise-oh] 真的吗?我不敢相信!
[Speaker_2]: [confirmation-en] 是的,这是真的。
female, young, high pitch, british accent, whisper
male, elderly, low pitch, american accent
female, middle-aged, medium pitch, 广东话
female, young, medium pitchmale, middle-aged, low pitchfemale, child, high pitchfemale, young, whispermale, middle-aged, low pitch, british accentmale, middle-aged, 四川话A: 首次运行会自动下载模型(约 2-4GB),请耐心等待。可以在 ComfyUI 的控制台查看下载进度。如果下载速度很慢,可以在启动 ComfyUI 前设置国内镜像:
export HF_ENDPOINT="https://hf-mirror.com"
A: 尝试以下方法:
dtype 设置为 bf16 或 fp16keep_model_loaded 设置为 Falsesteps 参数(如从 32 降到 16)device = cpu(速度较慢但不占用显存)OmniVoice-bf16 模型而非 OmniVoiceA: 使用 OmniVoice Whisper Loader 节点,并将其输出连接到 TTS 节点的 whisper_model 输入端,这样可以缓存模型避免重复下载。
A: 提高克隆质量的建议:
ref_text(参考音频的准确文本)steps 到 32 或 64seed 值A:
denoise 参数为 Truepostprocess_output 参数为 Truesteps 参数提高质量guidance_scale(默认 2.0)A: 支持 600+ 种语言,包括中文(普通话及各地方言)、英语、日语、韩语、法语、德语、西班牙语等绝大多数语言。直接在 text 中输入对应语言文本即可。
A: 设置 duration 参数为需要的秒数(如 5.0 表示 5 秒)。注意:设定时长会覆盖 speed 参数。
A: 完全重启 ComfyUI 以重新加载 Python 模块。如果仍然报错,检查控制台日志中是否有 omnivoice import failed 相关提示,可能需要手动运行:
pip install --no-deps omnivoice
A: 在 ComfyUI 启动脚本中将 FFmpeg 的 bin/ 文件夹添加到系统 PATH,或使用 WAV 格式的音频保存节点。
A: 设置固定的 seed 值(不使用 0),并保持所有其他参数不变,即可复现相同的结果。
A:
OmniVoice Longform TTS 节点(而非 Voice Clone 节点)words_per_chunk 设置合理(默认 100)A:
[Speaker_N]: 标签是否正确(注意编号从 1 开始)num_speakers 设置正确ref_text 是否准确A: SageAttention 是一种 GPU 优化的注意力实现,可以加速推理。但需要 Ampere 架构(RTX 30 系列)或更新的显卡。如果你的显卡支持,安装 sageattention 后在 attention 参数中选择即可。一般用户使用 auto 或 eager 即可。
A: 模型自动下载到以下目录:
ComfyUI/models/omnivoice/
ComfyUI/models/audio_encoders/
如果需要手动管理或释放空间,可以在此处操作。
| 精度 | 显存需求 | 说明 |
|---|---|---|
| fp32(OmniVoice) | ~8-12 GB | 最高质量 |
| bf16/fp16(OmniVoice-bf16) | ~4-6 GB | 推荐,质量与显存平衡 |
| CPU 卸载 | ~2-4 GB | 显存不足时使用,速度较慢 |
本手册基于 OmniVoice TTS ComfyUI 节点 v0.2.7 编写。如有问题,请查阅项目文档或提交 Issue。
认证作者

支持自启动