镜像社区
部署GPU实例
模型API
文档中心
常见问题(FAQ)
WebUI
其他
flux
DLoRAL视频超分
一步扩散实现细节丰富且时间一致的视频超分辨率
0/小时
v1.0

一步扩散:细节丰富且时间一致的视频超分辨率

孙玉静1,2, * | 孙凌辰1,2, * | 刘帅正1,2 | 吴荣远1,2 | 张正强1,2 | 张磊1,2

1香港理工大学,2OPPO研究院

image.png

⏰ 更新

  • 2025.07.14: Colab演示现已可用。✨ 无需本地GPU或设置 - 只需上传并增强!
  • 2025.07.08: 推理代码和预训练权重已可用。
  • 2025.06.24: 项目页面已可用,包括简短的2分钟讲解视频、更多视觉效果和相关研究。
  • 2025.06.17: 代码仓库已发布。

:star: 如果DLoRAL对您的视频或项目有帮助,请帮忙给这个仓库点星。谢谢!:hugs:

😊 您可能还想查看我们的相关作品:

  1. OSEDiff (NIPS2024) 论文 | 代码

    已应用于OPPO Find X8系列的实时图像超分辨率算法。

  2. PiSA-SR (CVPR2025) 论文 | 代码

    图像超分辨率中双LoRA范式的开创性探索。

  3. 优秀视频超分辨率扩散模型 仓库

    使用扩散模型进行视频超分辨率(VSR)的精选资源列表。

👀 待办事项

  • 发布推理代码。
  • 提供便捷测试的Colab演示。
  • 发布训练代码。
  • 发布训练数据。

🌟 框架概述

image.png

训练: 动态双阶段训练方案在优化时间一致性(一致性阶段)和细化高频空间细节(增强阶段)之间交替,通过平滑损失插值确保稳定性。

推理: 在推理过程中,C-LoRA和D-LoRA都合并到冻结的扩散UNet中,实现低质量输入到高质量输出的一步增强。

🔧 依赖和安装

由于本镜像已经完成安装,可以跳过官方的安装说明使用。

直接进入项目文件夹启动即可!

cd /workspace/DLoRAL
python start_web_app.py
  1. 克隆仓库

    git clone https://github.com/yjsunnn/DLoRAL.git
    cd DLoRAL
    
  2. 安装依赖包

    conda create -n DLoRAL python=3.10 -y
    conda activate DLoRAL
    pip install -r requirements.txt
    # mim安装mmedit和mmcv
    pip install openmim
    mim install mmcv-full mmengine
    pip install mmedit
    
  3. 下载模型

依赖模型

  • RAM --> 放入 /path/to/DLoRAL/preset/models/ram_swin_large_14m.pth
  • DAPE --> 放入 /path/to/DLoRAL/preset/models/DAPE.pth
  • 预训练权重 --> 放入 /path/to/DLoRAL/preset/models/checkpoints/model.pkl

每个路径都可以根据自身需求进行修改,相应的更改也应应用于命令行和代码中。

🖼️ 快速推理

对于真实世界视频超分辨率:

python src/test_DLoRAL.py     \
--pretrained_model_path stabilityai/stable-diffusion-2-1-base     \
--ram_ft_path /path/to/DLoRAL/preset/models/DAPE.pth     \
--ram_path '/path/to/DLoRAL/preset/models/ram_swin_large_14m.pth'     \
--merge_and_unload_lora False     \
--process_size 512     \
--pretrained_model_name_or_path stabilityai/stable-diffusion-2-1-base     \
--vae_encoder_tiled_size 4096     \
--load_cfr     \
--pretrained_path /path/to/DLoRAL/preset/models/checkpoints/model.pkl     \
--stages 1     \
-i /path/to/input_videos/     \
-o /path/to/results
python src/test_DLoRAL.py --pretrained_model_path stabilityai/stable-diffusion-2-1-base --ram_ft_path preset/models/DAPE.pth --ram_path 'preset/models/ram_swin_large_14m.pth' --merge_and_unload_lora False --process_size 512 --pretrained_model_name_or_path stabilityai/stable-diffusion-2-1-base --vae_encoder_tiled_size 4096 --load_cfr --pretrained_path preset/models/checkpoints/model.pkl --stages 1 -i input_videos/ -o results

⚙️ 训练

对于真实世界视频超分辨率:

bash train_scripts.sh

一些关键参数及其对应含义:

参数描述示例值
--quality_iter从一致性阶段切换到质量阶段的初始步数5000
--quality_iter_1_final从质量阶段切换到一致性阶段所需的步数13000
--quality_iter_2quality_iter_1_final之后切换回质量阶段的相对步数(实际切换发生在quality_iter_1_final + quality_iter_25000
--lsdir_txt_path第一阶段数据集路径"/path/to/your/dataset"
--pexel_txt_path第二阶段数据集路径"/path/to/your/dataset"

💬 联系方式:

如果您有任何问题(不仅是关于DLoRAL,还包括突发/视频超分辨率相关的问题),请随时通过yujingsun1999@gmail.com联系我

引用

如果我们的代码对您的研究或工作有帮助,请考虑引用我们的论文。 以下是BibTeX引用:

@misc{sun2025onestepdiffusiondetailrichtemporally,
      title={One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution}, 
      author={Yujing Sun and Lingchen Sun and Shuaizheng Liu and Rongyuan Wu and Zhengqiang Zhang and Lei Zhang},
      year={2025},
      eprint={2506.15591},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2506.15591}, 
}

镜像信息
@Ikaros
已使用
2
镜像大小70GB
最近编辑2025-08-07
支持卡型
RTX40系48G RTX40系3080Ti3090
+4
框架版本
PyTorch-2.5.1
CUDA版本
12.1
应用
JupyterLab: 8888
版本
v1.0
2025-08-07
PyTorch:2.5.1 | CUDA:12.1 | 大小:70.00GB