VoxCPM 优云智算社区版 使用教程
📦 项目简介
VoxCPM 是一款开源的跨语种语音生成大模型,支持多语言、多音色、多风格的语音合成,同时提供 LoRA 声音克隆功能,可快速定制专属音色。
本社区版镜像已预配置所有运行环境,开箱即用,等待包含两大核心功能:
- 🎵 语音生成服务(8808 端口)
- 🧠 声音克隆训练服务(7860 端口)
验证服务启动
实例启动后等待 3 分钟左右,服务会自动启动,访问以下地址验证:
- 语音生成服务(点击按钮):语音生成 WebUI
- 声音训练服务(点击按钮):声音克隆训练 WebUI
🔌 端口说明
语音生成 WebUI | 文本转语音、音色选择、参数调整 | http://服务器IP:8808 |
声音克隆训练 WebUI | 数据集上传、LoRA 训练、模型测试 | http://服务器IP:7860 |
🚀 快速开始
1. 服务启动
镜像已配置开机自动启动,服务器开机后3分钟左右两个服务会自动运行,无需手动操作。
如需手动管理服务:
supervisorctl status
supervisorctl restart all
supervisorctl restart voxcpm
supervisorctl restart voxcpm_train
tail -f /var/log/voxcpm.log
tail -f /var/log/voxcpm_train.log
2. 语音生成服务使用(8808 端口)
访问 http://服务器IP:8808 进入语音生成界面:
核心功能:
- 文本输入:支持中英文等多语言文本输入,最长支持 1000 字符
- 音色选择:内置数十种预设音色,包括通用、情感、方言等多种风格
- 参数调整:
- 语速:0.5 ~ 2.0 倍速(默认 1.0)
- 音调:-12 ~ +12 半音调整(默认 0)
- 音量:0.1 ~ 3.0 倍(默认 1.0)
- 批量生成:支持多行文本批量生成语音
- 结果导出:生成的语音可直接下载为 MP3/WAV 格式
使用步骤:
- 在文本框输入需要合成的内容
- 选择合适的音色
- 调整语速、音调、音量参数(可选)
- 点击「生成」按钮等待处理
- 生成完成后可在线试听或下载音频文件
3. 声音克隆训练服务使用(7860 端口)
访问 http://服务器IP:7860 进入声音克隆训练界面:
核心功能:
- 数据集上传:支持上传单个或多个音频文件作为训练素材
- 自动预处理:自动完成音频切分、降噪、特征提取等预处理工作
- 训练参数配置:支持调整训练轮次、学习率、批次大小等参数
- 一键训练:自动完成 LoRA 微调训练,实时展示训练进度
- 模型测试:训练完成后可直接在界面测试生成效果
- 模型导出:训练好的 LoRA 模型可导出用于其他场景
训练准备:
-
音频素材要求:
- 格式:MP3/WAV 格式,采样率 16000Hz 以上
- 时长:总时长 5
10 分钟效果最佳,单条音频建议 1030 秒
- 质量:清晰无背景噪音,发音标准、语速适中
- 内容:建议包含不同声调、不同情绪的发音,覆盖更多音素
-
数据集整理:
- 单个音频文件直接上传即可
- 多个音频文件可打包为 ZIP 压缩包上传(无需文件夹嵌套)
训练步骤:
- 上传音频素材到「数据集上传」区域
- 等待系统自动完成音频预处理(无需手动操作)
- 配置训练参数:
- 训练轮次(Epoch):建议 100~300 轮(默认 200)
- 学习率(Learning Rate):建议 1e-4 ~ 5e-4(默认 2e-4)
- 批次大小(Batch Size):根据显存调整,建议 2~8(默认 4)
- 点击「开始训练」按钮,系统会自动开始训练
- 实时查看训练进度和 Loss 曲线,Loss 稳定在较低值时可停止训练
- 训练完成后,在「模型测试」区域输入文本即可测试克隆效果
- 满意后可导出 LoRA 模型文件保存使用
训练建议:
- 高质量的素材比长时间训练效果更好
- 建议训练 200 轮左右,观察 Loss 曲线趋于平稳即可停止
- 如果出现过拟合(训练集效果好,测试集效果差),可适当减少训练轮次
- 显存不足时可减小批次大小,或降低训练数据分辨率
⚙️ 高级配置
自定义音色导入
- 将训练好的 LoRA 模型文件(.pt 格式)上传到
/root/VoxCPM-main/models/lora/ 目录
- 重启语音生成服务:
supervisorctl restart voxcpm
- 刷新 8808 端口页面,即可在音色列表中看到自定义音色
❓ 常见问题
Q:8808/7860 端口访问不了?
A:
- 检查服务是否正常运行:
supervisorctl status
- 检查端口是否监听:
netstat -tulpn | grep -E "8808|7860"
- 检查防火墙是否开放端口:
ufw status,如需开放执行 ufw allow 8808 && ufw allow 7860
Q:语音生成速度慢?
A:
- 首次生成需要加载模型,后续会加快
- GPU 环境生成速度远快于 CPU 环境,建议使用 GPU 服务器
- 长文本生成建议分段处理
Q:声音克隆效果不好?
A:
- 检查音频素材质量,是否有背景噪音、发音不清晰等问题
- 增加训练素材时长,建议 5 分钟以上
- 调整训练参数,增加训练轮次
- 尝试使用更大的基础模型
Q:训练过程中断了怎么办?
A:
训练会自动保存 checkpoint,重新点击「开始训练」会自动从最近的 checkpoint 继续训练,无需从头开始。
Q:如何清空训练数据?
A:
点击界面「清空数据集」按钮,或手动删除 /root/VoxCPM-main/data/train/ 目录下的文件。
🔗 相关链接