登录
Qwen-Image的Lora训练DiffusionPipe
使用diffusion pipe进行qwen image的lora训练,小白也可简单上手,上传image即可开始训练
1
0/小时
v1.0

Qwen-Image的Lora训练DiffusionPipe

本指南介绍如何使用 Jupyter 环境进行 Qwen Image 模型的 LoRA 训练流程。

📋 训练流程

1. 准备数据集

打开 Jupyter 后,按以下步骤操作:

  1. 进入数据集目录:

    datasets/image/
    
  2. 上传准备好的训练数据:

    • 打标完成的图片文件
    • 对应的 .txt 标注文件

2. 配置参数 (可选)

根据需要调整训练参数:

修改分辨率设置

编辑 dataset.toml 文件,调整图片分辨率相关配置

修改高级设置

编辑 qwen.toml 文件,调整模型训练的高级参数

3. 开始训练

在 Jupyter 界面的终端中执行以下命令:

  1. 进入工作目录:

    cd /workspace/diffusion-pipe
    
  2. 启动训练:

    NCCL_P2P_DISABLE="1" NCCL_IB_DISABLE="1" deepspeed --num_gpus=1 train.py --deepspeed --config examples/qwen_image_24gb_vram.toml
    

11月30日 - frame at 1m36s (1).jpg

4. 监控训练进度

训练开始一段时间后,可以通过 TensorBoard 监控 loss 变化:

  1. 在终端中执行:

    tensorboard --logdir /workspace/diffusion-pipe/logs/lora_current/ --port 6006 --host 0.0.0.0
    
  2. 点击 Jupyter 界面旁边的 TensorBoard 标签查看可视化结果

  3. 在终端中执行指令恢复中断的训练: cd /workspace/diffusion-pipe

deepspeed --num_gpus=1 train.py \
   --deepspeed \
   --config examples/qwen_image_24gb_vram.toml \
   --resume_from_checkpoint "20251130_18-57-11"  

📝 注意事项

  • 确保图片和对应的 txt 文件命名一致
  • 根据 GPU 显存大小选择合适的配置文件
  • 定期检查 TensorBoard 中的 loss 曲线,确保训练正常进行

🔧 常见问题

如遇到显存不足,可以尝试:

  • 降低 dataset.toml 中的分辨率设置
  • 调整 qwen.toml 中的 batch size 参数![11月30日 - frame at 1m36s (1).jpg]
镜像信息
@梦影Erislia
已使用0
运行时长
0 H
镜像大小
120GB
最后更新时间
2025-12-02
支持卡型
RTX40系48G RTX40系RTX50系A100A800H20
+6
框架版本
PyTorch-2.9
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.0
2025-12-02
PyTorch:2.9 | CUDA:12.8 | 大小:120.00GB