ACE Step 1.5 XL (4B)音乐生成lora训练
环境要求
- 推荐显卡:4090 24G
- 最低要求:4090 或 3090
- 音频时长建议控制在 2分钟以内,超过2分钟可能爆显存
快速开始
- 启动实例后,打开 JupyterLab
- 找到对应的启动脚本,复制粘贴运行即可
模型说明
本镜像包含三个版本的模型:
| 模型 | 说明 |
|---|
| Base | 基础模型,推荐用于 LoRA 训练 |
| SFT | 经过微调,配合 CFG 设置可获得更好音质 |
| Turbo | 蒸馏量化版本,推荐日常生成使用 |
个人推荐使用 Turbo 进行跑歌,CFG 默认 1 step,可设为 8~12。
LoRA 训练
准备音频
- 将音频剪辑至 2分钟以内(避免爆显存)
- 如果音频格式不兼容,运行预处理脚本进行格式转换后再放入
training_music 文件夹
开始训练
- 将音频文件放入
training_music 文件夹
- 打开Comfy,启动训练
- 训练大约 10~15分钟 完成
获取 LoRA 文件
训练完成后,进入 LoRA 输出文件夹 → checkpoints → final,找到对应文件,复制到 ComfyUI 的 models/loras 目录下,按 R键 刷新即可加载。
⚠️ 注意触发词:打标时设置的触发词必须加入 style 提示词中,否则 LoRA 效果不明显。
爆显存处理
训练或推理过程中如遇到显存不足,执行 Restart 重启服务后重试,并确保音频时长在2分钟以内。
ComfyUI 使用
- 启动 ComfyUI 后,点击 Workflow 选择对应工作流(Base / SFT / Turbo / LoRA训练均有预设)
- 填写 style(风格描述)和歌词(可用 AI 生成)
- 如出现电音,适当调整 CFG 或 Steps 参数