VSR-WebUI项目简介

VSR-WebUI fork自YaoFANGUK的VSR项目,继承GPL v2协议
代码托管:https://github.com/AntheaLaffy/vsr-webui
VSR-WebUI主要实现了以下功能:
- 无损分辨率将视频中的硬字幕去除,生成去除字幕后的文件
- 通过AI算法模型,对去除字幕文本的区域进行填充(非相邻像素填充与马赛克去除)
- 支持自定义字幕位置,仅去除定义位置中的字幕(传入位置)
- 支持全视频自动去除所有文本(不传入位置)
- 支持多选图片批量去除水印文本
- 使用WebUI降低使用门槛
- 注意:无损的只是分辨率并不意味着视频的处理是无损的
- 恰恰相反,去除硬字幕是需要重新编码的,这意味着一定有损失。
- 一个更明显的就是——很多的mp4封装的视频编码其实是AVC1,而这个项目支持的格式其实是mp4v,所以处理时会把视频转为mp4v进行处理
- 所以你会发现视频合成后的帧数与原视频不一致,不过差异很小可以忽略

PS:前端程序的预览图片渲染可能有点问题,但问题不大,不影响后端处理结果,就当是一个彩蛋咯
PS:我的小窝,欢迎来逛:拉菲的八二年酒窖
VSR-WebUI使用说明
PS:这是v1.1的教程,v1.2界面有一些变化,但问题不大
1:镜像准备
- 真人视频推荐租用:3090、3080ti、4090
- 动画视频、带有剧烈抖动的视频推荐租用40系显卡
- 如果你有批处理的需求,甚至可以考虑使用A100,不推荐
- 如果不知道选什么,就用40系显卡
PS:一个官方测试参考
测试材料:5分钟1080p视频
显卡算力;3080ti负载拉满
a.字幕识别算法:(sttn算法可跳过)
-
paddleocr: 耗时20min:
目前只支持单帧画面依次识别,无法拉满显卡负载
未来可能支持多帧画面同时进行识别从而加快速度
b.画面填补算法
- sttn:(对真人视频效果最好):耗时5分钟
- lama:(对动画效果最好,图片其次):
常规模式:耗时30分钟
快速模式:未测试耗时
- propainter:(对剧烈抖动的视频效果最好):未测试耗时
2:视频准备
准备好要去除字幕的mp4视频文件,尽量压缩成zip文件上传,因为视频文件本身比较大
2.1:上传mp4视频
实例启动后点jupyter-lab

然后进入vsr/input文件夹,将mp4视频文件直接上传,然后更名为方便输入的名字
当然,你也使用webui上传视频的功能,不过不推荐
3:启动webui

算法模型训练说明
如果对模型去字幕的效果不满意,可以查看design文件夹里面的训练方法,利用backend/tools/train里面的代码进行训练,然后将训练的模型替换旧模型即可
关于版本的更新
- v1.2: 增加了文件管理界面,优化了去字幕界面的预览。尽力去修了一些操作上的bug,但只增加了食山代码