登录
DocCaptioner 打标器
Doc的打标器,支持 Qwen3vl及 API 调用
star0
0.1/小时
v1.0
最新

DocCaptioner v1.0

DocCaptioner 是一款基于 NiceGUI 构建的现代化本地图像/视频打标与数据集管理工具。它集成了先进的 Qwen 3-VL (Vision-Language) 视觉大模型,旨在为 AI 训练提供高效、流畅的“工作室级”数据准备工作流。


✨ 核心功能

  • 📸 交互式画廊 (Gallery Studio)

    • 高效浏览:支持海量图片/视频的平滑滚动加载。
    • 即时打标:直接在卡片上编辑标签,支持追加/前置模式。
    • 智能预览
      • 图片:悬停显示放大镜,点击查看高清大图。
      • 视频:支持原地点击播放 (Click-to-Play),无需弹窗即可快速预览,亦可全屏播放。
      • 性能优化:自动生成缩略图,避免大量媒体加载导致的显存溢出 (OOM)。
  • 🤖 Qwen 3-VL 自动打标 (Auto Captioning)

    • 本地 GPU 加速:支持 NVIDIA (CUDA) 和 AMD (ROCm) 显卡,利用本地算力快速生成高质量描述。
    • 在线 API 支持:兼容 OpenAI 格式的在线 API (如 vLLM, Ollama, OneAPI 等)。
    • 多语言支持:支持中文、英文及双语输出。
    • 自定义提示词:内置多种风格模板(详细描述、标签生成、电影感等),支持用户自定义 Prompt。
    • 视频理解:支持对视频文件进行抽帧分析并生成摘要或描述。
  • 📊 系统性能监控 (System Monitor)

    • 实时仪表盘:在顶部标题栏实时显示 CPU、RAM、GPU、VRAM 的使用率。
    • 可视化图表:直观的进度条和百分比显示,助您掌控硬件状态,防止过载。
    • 硬件详情:在设置页查看详细的 CPU/GPU 型号及驱动信息。
  • 📂 数据集管理 (Dataset Manager)

    • 一站式管理:创建、删除、切换数据集,支持 ZIP 压缩包的导入与导出。
    • 文件操作:支持批量重命名、删除、移动文件。
  • ✏️ 批量处理 (Batch Editor)

    • 图像编辑:批量调整大小 (Resize)、裁剪 (Crop)、旋转 (Rotate)、格式转换 (Convert)。
    • 智能重命名:支持自定义前缀的顺序重命名。

部署说明

ScreenShot_2025-12-26_175651_950.png 部署推荐使用 24G 卡,综合性价比高 ScreenShot_2025-12-26_172934_853.png 等待镜像启动后点击 DocCaptioner 即可进入打标器页面 image.png 使用内置预设模型 Qwen3-VL-8B 模型进行打标

@Doc_workBox
镜像信息
已使用0
运行时长
0 H
支持自启动
镜像大小
110GB
最后更新时间
2025-12-26
支持卡型
RTX40系3090RTX50系
+3
框架版本
PyTorch-2.8
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.0
2025-12-26
PyTorch:2.8 | CUDA:12.8 | 大小:110.00GB