优云智算
控制台
立即注册
GLM-OCR
GLM-OCR
star0
0/小时
v1.0
最新

GLM-OCR

更多操作请看官方文档:https://github.com/zai-org/GLM-OCR/blob/main/README_zh.md

模型介绍

GLM-OCR 是一款面向复杂文档理解的多模态 OCR 模型,基于 GLM-V 编码器—解码器架构构建。它引入 Multi-Token Prediction(MTP)损失与稳定的全任务强化学习训练策略,以提升训练效率、识别精度与泛化能力。模型集成了在大规模图文数据上预训练的 CogViT 视觉编码器、带高效 token 下采样的轻量跨模态连接器,以及 GLM-0.5B 语言解码器。结合基于 PP-DocLayout-V3 的“两阶段”流程——先做版面分析,再进行并行识别——GLM-OCR 能在多样化文档布局下提供稳健且高质量的 OCR 表现。

关键特性

  • 业界领先的效果:在 OmniDocBench V1.5 上取得 94.62 分,综合排名第一;并在公式识别、表格识别、信息抽取等主流文档理解基准上达到 SOTA 水平。

  • 面向真实场景优化:针对实际业务需求进行设计与优化,在复杂表格、代码密集文档、印章等各类真实且高难版面场景中依然保持稳定表现。

  • 高效推理:总参数量仅 0.9B,支持通过 vLLM、SGLang 与 Ollama 部署,显著降低推理时延与算力成本,适用于高并发服务与端侧部署。

  • 上手简单:全面开源,并提供完整 SDK 与推理工具链,支持便捷安装、一行调用、以及与现有生产流程的顺滑集成。

最新动态

  • [2026.3.12] GLM-OCR SDK 新增 Agent Skill 模式 — pip install glmocr + 配置 API Key,即可通过 CLI 或 Python 直接使用,无需 GPU 和 YAML 配置。详情见:GLM-OCR Skill
  • [2026.3.12] GLM-OCR 技术报告已上线,详情见:GLM-OCR 技术报告
  • [2026.2.12] 基于 LLaMA-Factory 的微调教程上线,详情见: GLM-OCR 微调教程

下载模型

本镜像已经安装好模型,位于:/root/.cache/modelscope/hub/models/ZhipuAI/GLM-OCR

模型运行

cd /workspace/GLM-OCR
vllm serve  /root/.cache/modelscope/hub/models/ZhipuAI/GLM-OCR   --allowed-local-media-path / --port 8080 --speculative-config '{"method": "mtp", "num_speculative_tokens": 1}' --served-model-name glm-ocr

运行需要时间较久,需等到出现ip端口

SDK CLI 使用指南

CLI

# 解析单张图片
cd /workspace/GLM-OCR
glmocr parse examples/source/code.png --config  glmocr/config.yaml

# 解析目录
cd /workspace/GLM-OCR
glmocr parse examples/source/ --config  glmocr/config.yaml

# 指定输出目录
cd /workspace/GLM-OCR
glmocr parse examples/source/code.png --output ./results/ --config  glmocr/config.yaml

@苍耳阿猫
苍耳阿猫认证作者
镜像信息
已使用0
运行时长
0 H
镜像大小
60GB
最后更新时间
2026-04-09
支持卡型
RTX40系RTX50系48G RTX40系
+3
框架版本
PyTorch-Python 3.10.12
CUDA版本
13.0
应用
JupyterLab: 8888
版本
v1.0
2026-04-09
PyTorch:Python 3.10.12 | CUDA:13.0 | 大小:60.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台

GLM-OCR一键部署 | 优云智算