1本教程基于 Musubi tune(fork 版仓库),目前是唯一支持 LTX-Video 2.3 的训练方案,已帮大家在云端配置好环境,开箱即用。https://github.com/AkaneTendo25/musubi-tuner/blob/ltx-2/docs/ltx_2.md
| 项目 | 要求 |
|---|---|
| 显存 | 最低 24G(4090),推荐 48G 或 50 系 |
| 训练模式 | 仅视频 / 仅图片 / 视频+图片 均支持 |
| 音频支持 | 选 av 模式可同时训练音频 |
⚠️ 低于 24G 显存将无法训练,该模型对显存要求较高。
推荐使用视频作者提供的配套打标工具:https://huggingface.co/spaces/comfyuiman/loracaptionertaz
关于 API 选择:
dataset 面板,上传你的素材(支持图片和视频)dataset 配置文件中的对应段落:
Ctrl+S 保存配置复制启动指令并运行,选择训练模式:
| 模式 | 适用场景 |
|---|---|
video | 仅视频 / 仅图片 |
av | 视频 + 音频(推荐有声视频使用此模式) |
训练共分三个阶段:
| 参数 | 说明 |
|---|---|
| 分辨率 | 可自定义,如 1280 或 1280×720 |
repeat | 根据数据量调整,约 40 图/视频时,repeat=6 使总步数达 200 左右 |
mode | video 或 av,有音频建议用 av |
| 参数 | 推荐值 / 说明 |
|---|---|
vae_slicing | 报显存错误(OOM)时开启,24G 显卡建议开启,值可设为 20 |
| 优化器 | 推荐 AdamW(稳定)或 8bit Adam(省显存),不推荐 Prodigy(不稳定) |
| 学习率 | 图片训练:1e-4 或 1e-5;视频训练:5e-5(拟合更慢,效果更好) |
LoRA rank/dim | 推荐 64/32 或 64/64,数值越大 LoRA 能力越强 |
max_train_steps | 建议设高一些,自行在曲线中找最佳 checkpoint |
| 保存间隔 | 默认每 250 步保存一次 |
| 优化器(显示器) | 默认 AdaFactor,也可用 AdamW |
在新终端中运行 TensorBoard 命令,打开后可查看:
loss_epoch:总体损失曲线loss_video:视频损失曲线(主要参考此曲线)loss_audio:音频损失曲线(av 模式下会有,波动较大属正常)💡 重点关注
loss_video曲线,音频曲线波动大是正常现象。
训练完成后,LoRA 文件保存在 outputs/ 文件夹中。
✅ 请下载后缀为
comfy.safetensors(COMFY 格式)的文件,才能在 ComfyUI 等工具中使用。
docs/ 目录下,包含 LTX-Video 2 完整训练说明training_data 目录下载,注意修改路径以适配云端环境1. 实名注册云端平台(新用户可领 10 元体验金)
2. 选择 24G 4090 及以上实例
3. 上传 dataset → 修改配置 → 复制启动指令 → 开始训练
