优云智算
控制台
立即注册
AI动漫配音—VoxCPM2一键语音克隆、配音、训练、支持LoRA
VoxCPM2支持AI动漫配音等多种应用场景,一键语音克隆、配音、训练、支持LoRA
star0
0/小时
v1.0
最新

VoxCPM 优云智算社区版 使用教程

📦 项目简介

VoxCPM 是一款开源的跨语种语音生成大模型,支持多语言、多音色、多风格的语音合成,同时提供 LoRA 声音克隆功能,可快速定制专属音色。

本社区版镜像已预配置所有运行环境,开箱即用,等待包含两大核心功能:

  • 🎵 语音生成服务(8808 端口)
  • 🧠 声音克隆训练服务(7860 端口)

验证服务启动

实例启动后等待 3 分钟左右,服务会自动启动,访问以下地址验证:

  • 语音生成服务(点击按钮):语音生成 WebUI
  • 声音训练服务(点击按钮):声音克隆训练 WebUI

🔌 端口说明

语音生成 WebUI | 文本转语音、音色选择、参数调整 | http://服务器IP:8808 |

声音克隆训练 WebUI | 数据集上传、LoRA 训练、模型测试 | http://服务器IP:7860 |

🚀 快速开始

1. 服务启动

镜像已配置开机自动启动,服务器开机后3分钟左右两个服务会自动运行,无需手动操作。

如需手动管理服务:

# 查看服务状态
supervisorctl status

# 重启所有服务
supervisorctl restart all

# 单独重启某个服务
supervisorctl restart voxcpm        # 重启语音生成服务
supervisorctl restart voxcpm_train  # 重启声音训练服务

# 查看服务日志
tail -f /var/log/voxcpm.log         # 语音生成服务日志
tail -f /var/log/voxcpm_train.log   # 声音训练服务日志

2. 语音生成服务使用(8808 端口)

访问 http://服务器IP:8808 进入语音生成界面:

核心功能:

  • 文本输入:支持中英文等多语言文本输入,最长支持 1000 字符
  • 音色选择:内置数十种预设音色,包括通用、情感、方言等多种风格
  • 参数调整
    • 语速:0.5 ~ 2.0 倍速(默认 1.0)
    • 音调:-12 ~ +12 半音调整(默认 0)
    • 音量:0.1 ~ 3.0 倍(默认 1.0)
  • 批量生成:支持多行文本批量生成语音
  • 结果导出:生成的语音可直接下载为 MP3/WAV 格式

使用步骤:

  1. 在文本框输入需要合成的内容
  2. 选择合适的音色
  3. 调整语速、音调、音量参数(可选)
  4. 点击「生成」按钮等待处理
  5. 生成完成后可在线试听或下载音频文件

3. 声音克隆训练服务使用(7860 端口)

访问 http://服务器IP:7860 进入声音克隆训练界面:

核心功能:

  • 数据集上传:支持上传单个或多个音频文件作为训练素材
  • 自动预处理:自动完成音频切分、降噪、特征提取等预处理工作
  • 训练参数配置:支持调整训练轮次、学习率、批次大小等参数
  • 一键训练:自动完成 LoRA 微调训练,实时展示训练进度
  • 模型测试:训练完成后可直接在界面测试生成效果
  • 模型导出:训练好的 LoRA 模型可导出用于其他场景

训练准备:

  1. 音频素材要求

    • 格式:MP3/WAV 格式,采样率 16000Hz 以上
    • 时长:总时长 510 分钟效果最佳,单条音频建议 1030 秒
    • 质量:清晰无背景噪音,发音标准、语速适中
    • 内容:建议包含不同声调、不同情绪的发音,覆盖更多音素
  2. 数据集整理

    • 单个音频文件直接上传即可
    • 多个音频文件可打包为 ZIP 压缩包上传(无需文件夹嵌套)

训练步骤:

  1. 上传音频素材到「数据集上传」区域
  2. 等待系统自动完成音频预处理(无需手动操作)
  3. 配置训练参数:
    • 训练轮次(Epoch):建议 100~300 轮(默认 200)
    • 学习率(Learning Rate):建议 1e-4 ~ 5e-4(默认 2e-4)
    • 批次大小(Batch Size):根据显存调整,建议 2~8(默认 4)
  4. 点击「开始训练」按钮,系统会自动开始训练
  5. 实时查看训练进度和 Loss 曲线,Loss 稳定在较低值时可停止训练
  6. 训练完成后,在「模型测试」区域输入文本即可测试克隆效果
  7. 满意后可导出 LoRA 模型文件保存使用

训练建议:

  • 高质量的素材比长时间训练效果更好
  • 建议训练 200 轮左右,观察 Loss 曲线趋于平稳即可停止
  • 如果出现过拟合(训练集效果好,测试集效果差),可适当减少训练轮次
  • 显存不足时可减小批次大小,或降低训练数据分辨率

⚙️ 高级配置

自定义音色导入

  1. 将训练好的 LoRA 模型文件(.pt 格式)上传到 /root/VoxCPM-main/models/lora/ 目录
  2. 重启语音生成服务:supervisorctl restart voxcpm
  3. 刷新 8808 端口页面,即可在音色列表中看到自定义音色

❓ 常见问题

Q:8808/7860 端口访问不了?

A:

  1. 检查服务是否正常运行:supervisorctl status
  2. 检查端口是否监听:netstat -tulpn | grep -E "8808|7860"
  3. 检查防火墙是否开放端口:ufw status,如需开放执行 ufw allow 8808 && ufw allow 7860

Q:语音生成速度慢?

A:

  • 首次生成需要加载模型,后续会加快
  • GPU 环境生成速度远快于 CPU 环境,建议使用 GPU 服务器
  • 长文本生成建议分段处理

Q:声音克隆效果不好?

A:

  1. 检查音频素材质量,是否有背景噪音、发音不清晰等问题
  2. 增加训练素材时长,建议 5 分钟以上
  3. 调整训练参数,增加训练轮次
  4. 尝试使用更大的基础模型

Q:训练过程中断了怎么办?

A: 训练会自动保存 checkpoint,重新点击「开始训练」会自动从最近的 checkpoint 继续训练,无需从头开始。

Q:如何清空训练数据?

A: 点击界面「清空数据集」按钮,或手动删除 /root/VoxCPM-main/data/train/ 目录下的文件。

🔗 相关链接

@星尘小赵
镜像信息
已使用0
运行时长
0 H
支持自启动
镜像大小
40GB
最后更新时间
2026-04-20
支持卡型
3090RTX40系RTX50系48G RTX40系
+4
框架版本
PyTorch-2.8
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.0
2026-04-20
PyTorch:2.8 | CUDA:12.8 | 大小:40.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台