0

./train.sh
说明: train.sh 会自动处理端口冲突,无需手动操作。
WebUI 包含两个主要标签页:
右上角可切换中英文界面。
创建 JSONL 格式的训练数据文件,每行一个 JSON 对象:
{"audio": "path/to/audio1.wav", "text": "对应的文本内容"}
{"audio": "path/to/audio2.wav", "text": "另一段文本"}
{"audio": "path/to/audio3.wav", "text": "更多文本", "duration": 3.5}
字段说明:
audio: 音频文件路径(支持相对路径和绝对路径)text: 音频对应的文本转录duration: (可选) 音频时长,可加速数据加载音频要求:
进入"训练"标签页,配置以下参数:
models/openbmb__VoxCPM1.5data/my_train.jsonl1e-4 (0.0001)点击"开始训练"按钮,训练日志会实时显示在右侧面板。
训练输出:
lora/<timestamp>/train_config.yamllora/<timestamp>/checkpoints/step_XXXXXX/lora/<timestamp>/logs/实时查看训练日志输出。
./monitor_training.sh
tensorboard --logdir=lora/<timestamp>/logs --port=6006 --bind_all
点击"停止训练"按钮,或使用命令:
pkill -f train_voxcpm_finetune
进入"推理"标签页:
在基础 TTS 基础上,添加参考音频:
参考音频要求:
<timestamp>/checkpoints/step_XXXXXX说明: LoRA 模型会在基础模型上微调,适合特定说话人或风格。
voxcpm --text "Hello, world!" --output output.wav
voxcpm \
--text "要合成的文本" \
--prompt-audio reference.wav \
--prompt-text "参考音频的文本" \
--output output.wav
python scripts/test_voxcpm_lora_infer.py \
--lora_ckpt lora/<timestamp>/checkpoints/step_XXXXXX \
--text "测试文本" \
--output output.wav
python scripts/train_voxcpm_finetune.py \
--config_path conf/voxcpm_v1.5/voxcpm_finetune_lora.yaml
CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node=4 \
scripts/train_voxcpm_finetune.py \
--config_path your_config.yaml
原因: JSONL 文件中的音频路径不存在
解决:
解决:
batch_size (改为 1)lora_rank (改为 16 或 8)grad_accum_steps (如 4)可能原因:
建议:
方法:
经验:
优化建议:
解决:
# 方法 1: 使用启动脚本(自动处理)
./train.sh
# 方法 2: 手动杀掉进程
lsof -ti :7860 | xargs kill
# 方法 3: 使用不同端口
python lora_ft_webui.py --server-port 7861
方法:
save_path 指向已有目录评估方法:
CLAUDE.md, DEPLOYMENT.mdtodo.mdscripts/train_voxcpm_finetune.pymonitor_training.shVoxCPM/
├── lora_ft_webui.py # WebUI 主程序
├── train.sh # WebUI 启动脚本
├── monitor_training.sh # 训练监控脚本
├── examples/
│ ├── train_data_valid.jsonl # 示例训练数据
│ └── example.wav # 示例音频
├── lora/ # 训练输出目录
│ └── <timestamp>/
│ ├── train_config.yaml
│ ├── checkpoints/
│ │ └── step_XXXXXX/
│ │ ├── lora_config.json
│ │ ├── lora_weights.safetensors
│ │ ├── optimizer.pth
│ │ └── scheduler.pth
│ └── logs/ # TensorBoard 日志
├── models/ # 预训练模型
│ └── openbmb__VoxCPM1.5/
└── scripts/
├── train_voxcpm_finetune.py
├── test_voxcpm_lora_infer.py
└── test_voxcpm_ft_infer.py
版本: 1.0 更新日期: 2025-12-27 适用模型: VoxCPM1.5, VoxCPM-0.5B
认证作者

支持自启动