DLoRAL视频超分

一步扩散实现细节丰富且时间一致的视频超分辨率

0元/小时

v1.0

一步扩散：细节丰富且时间一致的视频超分辨率

孙玉静^{1,2, *} | 孙凌辰^{1,2, *} | 刘帅正^1,2 | 吴荣远^1,2 | 张正强^1,2 | 张磊^1,2

¹香港理工大学，²OPPO研究院

⏰ 更新

2025.07.14: Colab演示现已可用。✨ 无需本地GPU或设置 - 只需上传并增强！
2025.07.08: 推理代码和预训练权重已可用。
2025.06.24: 项目页面已可用，包括简短的2分钟讲解视频、更多视觉效果和相关研究。
2025.06.17: 代码仓库已发布。

:star: 如果DLoRAL对您的视频或项目有帮助，请帮忙给这个仓库点星。谢谢！:hugs:

😊 您可能还想查看我们的相关作品：

OSEDiff (NIPS2024) 论文 | 代码

已应用于OPPO Find X8系列的实时图像超分辨率算法。
PiSA-SR (CVPR2025) 论文 | 代码

图像超分辨率中双LoRA范式的开创性探索。
优秀视频超分辨率扩散模型 仓库

使用扩散模型进行视频超分辨率(VSR)的精选资源列表。

👀 待办事项

发布推理代码。
提供便捷测试的Colab演示。
发布训练代码。
发布训练数据。

🌟 框架概述

训练: 动态双阶段训练方案在优化时间一致性（一致性阶段）和细化高频空间细节（增强阶段）之间交替，通过平滑损失插值确保稳定性。

推理: 在推理过程中，C-LoRA和D-LoRA都合并到冻结的扩散UNet中，实现低质量输入到高质量输出的一步增强。

🔧 依赖和安装

由于本镜像已经完成安装，可以跳过官方的安装说明使用。

直接进入项目文件夹启动即可！

cd /workspace/DLoRAL
python start_web_app.py

克隆仓库

git clone https://github.com/yjsunnn/DLoRAL.git
cd DLoRAL

安装依赖包

conda create -n DLoRAL python=3.10 -y
conda activate DLoRAL
pip install -r requirements.txt
# mim安装mmedit和mmcv
pip install openmim
mim install mmcv-full mmengine
pip install mmedit

下载模型

依赖模型

RAM --> 放入 /path/to/DLoRAL/preset/models/ram_swin_large_14m.pth
DAPE --> 放入 /path/to/DLoRAL/preset/models/DAPE.pth
预训练权重 --> 放入 /path/to/DLoRAL/preset/models/checkpoints/model.pkl

每个路径都可以根据自身需求进行修改，相应的更改也应应用于命令行和代码中。

🖼️ 快速推理

对于真实世界视频超分辨率：

python src/test_DLoRAL.py     \
--pretrained_model_path stabilityai/stable-diffusion-2-1-base     \
--ram_ft_path /path/to/DLoRAL/preset/models/DAPE.pth     \
--ram_path '/path/to/DLoRAL/preset/models/ram_swin_large_14m.pth'     \
--merge_and_unload_lora False     \
--process_size 512     \
--pretrained_model_name_or_path stabilityai/stable-diffusion-2-1-base     \
--vae_encoder_tiled_size 4096     \
--load_cfr     \
--pretrained_path /path/to/DLoRAL/preset/models/checkpoints/model.pkl     \
--stages 1     \
-i /path/to/input_videos/     \
-o /path/to/results

python src/test_DLoRAL.py --pretrained_model_path stabilityai/stable-diffusion-2-1-base --ram_ft_path preset/models/DAPE.pth --ram_path 'preset/models/ram_swin_large_14m.pth' --merge_and_unload_lora False --process_size 512 --pretrained_model_name_or_path stabilityai/stable-diffusion-2-1-base --vae_encoder_tiled_size 4096 --load_cfr --pretrained_path preset/models/checkpoints/model.pkl --stages 1 -i input_videos/ -o results

⚙️ 训练

对于真实世界视频超分辨率：

bash train_scripts.sh

一些关键参数及其对应含义：

参数	描述	示例值
`--quality_iter`	从一致性阶段切换到质量阶段的初始步数	`5000`
`--quality_iter_1_final`	从质量阶段切换到一致性阶段所需的步数	`13000`
`--quality_iter_2`	`quality_iter_1_final`之后切换回质量阶段的相对步数（实际切换发生在`quality_iter_1_final + quality_iter_2`）	`5000`
`--lsdir_txt_path`	第一阶段数据集路径	`"/path/to/your/dataset"`
`--pexel_txt_path`	第二阶段数据集路径	`"/path/to/your/dataset"`

💬 联系方式：

如果您有任何问题（不仅是关于DLoRAL，还包括突发/视频超分辨率相关的问题），请随时通过yujingsun1999@gmail.com联系我

引用

如果我们的代码对您的研究或工作有帮助，请考虑引用我们的论文。以下是BibTeX引用：

@misc{sun2025onestepdiffusiondetailrichtemporally,
      title={One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution}, 
      author={Yujing Sun and Lingchen Sun and Shuaizheng Liu and Rongyuan Wu and Zhengqiang Zhang and Lei Zhang},
      year={2025},
      eprint={2506.15591},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2506.15591}, 
}

@Ikaros

镜像信息

已使用12 次

运行时长

20 H

镜像大小

70GB

最后更新时间

2025-08-07

支持卡型

RTX40系20803080Ti309048G RTX40系2080TiH20A800P40A100RTX50系V100S

+12

框架版本

PyTorch-2.5.1

CUDA版本

12.1

应用

JupyterLab: 8888

版本

v1.0

2025-08-07

PyTorch:2.5.1 | CUDA:12.1 | 大小:70.00GB

隶属于优刻得科技股份有限公司

股票代码：688158

优刻得是中立、安全的云计算服务平台

友情链接 :

优刻得|PICPIK.AI|LangChain中文网

产品

GPU实例 GPU镜像社区模型API服务

快速入口

文档中心 API文档用户协议

镜像合集

AI4S 数字人 TTS语音 Wan2.2 视频超分