1本镜像搭载高效的1B参数视觉语言模型LightOn-OCR-1B,专注于复杂图片与PDF文档的文字信息提取,可精准处理图文混排版面,并支持实时生成结构清晰的MarkDown文档。结合目标检测与视觉场景识别技术,它能够理解并解析文档的视觉元素与逻辑关系,适用于文档数字化、知识库构建、资料高效归档及自动化内容整理等场景。
1、使用该镜像创建实例,该镜像支持自启动,初始化后,需要等待服务启动,大概2分钟左右,可以输入命令 tail -50f /root/wan/log.txt 查看启动日志
2、随后点击 SD-WEBUI 按钮即可,上传图片或者PDF文档,点击解析按钮即可

3 也支持全量PDF文档解析,直接下载结果,不限制页数
认证作者

支持自启动