DocCaptioner v1.0
DocCaptioner 是一款基于 NiceGUI 构建的现代化本地图像/视频打标与数据集管理工具。它集成了先进的 Qwen 3-VL (Vision-Language) 视觉大模型,旨在为 AI 训练提供高效、流畅的“工作室级”数据准备工作流。
✨ 核心功能
-
📸 交互式画廊 (Gallery Studio)
- 高效浏览:支持海量图片/视频的平滑滚动加载。
- 即时打标:直接在卡片上编辑标签,支持追加/前置模式。
- 智能预览:
- 图片:悬停显示放大镜,点击查看高清大图。
- 视频:支持原地点击播放 (Click-to-Play),无需弹窗即可快速预览,亦可全屏播放。
- 性能优化:自动生成缩略图,避免大量媒体加载导致的显存溢出 (OOM)。
-
🤖 Qwen 3-VL 自动打标 (Auto Captioning)
- 本地 GPU 加速:支持 NVIDIA (CUDA) 和 AMD (ROCm) 显卡,利用本地算力快速生成高质量描述。
- 在线 API 支持:兼容 OpenAI 格式的在线 API (如 vLLM, Ollama, OneAPI 等)。
- 多语言支持:支持中文、英文及双语输出。
- 自定义提示词:内置多种风格模板(详细描述、标签生成、电影感等),支持用户自定义 Prompt。
- 视频理解:支持对视频文件进行抽帧分析并生成摘要或描述。
-
📊 系统性能监控 (System Monitor)
- 实时仪表盘:在顶部标题栏实时显示 CPU、RAM、GPU、VRAM 的使用率。
- 可视化图表:直观的进度条和百分比显示,助您掌控硬件状态,防止过载。
- 硬件详情:在设置页查看详细的 CPU/GPU 型号及驱动信息。
-
📂 数据集管理 (Dataset Manager)
- 一站式管理:创建、删除、切换数据集,支持 ZIP 压缩包的导入与导出。
- 文件操作:支持批量重命名、删除、移动文件。
-
✏️ 批量处理 (Batch Editor)
- 图像编辑:批量调整大小 (Resize)、裁剪 (Crop)、旋转 (Rotate)、格式转换 (Convert)。
- 智能重命名:支持自定义前缀的顺序重命名。
部署说明
部署推荐使用 24G 卡,综合性价比高
等待镜像启动后点击 DocCaptioner 即可进入打标器页面
使用内置预设模型 Qwen3-VL-8B 模型进行打标