GLM-OCR一键部署 | 优云智算

控制台

立即注册

GLM-OCR

0元/小时

v1.0

GLM-OCR

更多操作请看官方文档：https://github.com/zai-org/GLM-OCR/blob/main/README_zh.md

模型介绍

GLM-OCR 是一款面向复杂文档理解的多模态 OCR 模型，基于 GLM-V 编码器—解码器架构构建。它引入 Multi-Token Prediction（MTP）损失与稳定的全任务强化学习训练策略，以提升训练效率、识别精度与泛化能力。模型集成了在大规模图文数据上预训练的 CogViT 视觉编码器、带高效 token 下采样的轻量跨模态连接器，以及 GLM-0.5B 语言解码器。结合基于 PP-DocLayout-V3 的“两阶段”流程——先做版面分析，再进行并行识别——GLM-OCR 能在多样化文档布局下提供稳健且高质量的 OCR 表现。

关键特性

业界领先的效果：在 OmniDocBench V1.5 上取得 94.62 分，综合排名第一；并在公式识别、表格识别、信息抽取等主流文档理解基准上达到 SOTA 水平。
面向真实场景优化：针对实际业务需求进行设计与优化，在复杂表格、代码密集文档、印章等各类真实且高难版面场景中依然保持稳定表现。
高效推理：总参数量仅 0.9B，支持通过 vLLM、SGLang 与 Ollama 部署，显著降低推理时延与算力成本，适用于高并发服务与端侧部署。
上手简单：全面开源，并提供完整 SDK 与推理工具链，支持便捷安装、一行调用、以及与现有生产流程的顺滑集成。

下载模型

本镜像已经安装好模型，位于：/root/.cache/modelscope/hub/models/ZhipuAI/GLM-OCR

模型运行

cd /workspace/GLM-OCR
vllm serve  /root/.cache/modelscope/hub/models/ZhipuAI/GLM-OCR   --allowed-local-media-path / --port 8080 --speculative-config '{"method": "mtp", "num_speculative_tokens": 1}' --served-model-name glm-ocr

运行需要时间较久，需等到出现ip端口

SDK CLI 使用指南

CLI

# 解析单张图片
cd /workspace/GLM-OCR
glmocr parse examples/source/code.png --config  glmocr/config.yaml

# 解析目录
cd /workspace/GLM-OCR
glmocr parse examples/source/ --config  glmocr/config.yaml

# 指定输出目录
cd /workspace/GLM-OCR
glmocr parse examples/source/code.png --output ./results/ --config  glmocr/config.yaml

@苍耳阿猫

认证作者

镜像信息

已使用0 次

运行时长

0 H

镜像大小

60GB

最后更新时间

2026-04-09

支持卡型

RTX40系RTX50系48G RTX40系

框架版本

PyTorch-Python 3.10.12

CUDA版本

13.0

应用

JupyterLab: 8888

版本

v1.0

2026-04-09

PyTorch:Python 3.10.12 | CUDA:13.0 | 大小:60.00GB

隶属于优刻得科技股份有限公司

股票代码：688158

优刻得是中立、安全的云计算服务平台

友情链接 :

优刻得

产品

GPU实例 GPU镜像社区模型API服务

快速入口

文档中心 API文档用户协议

镜像合集

AI4S 数字人 TTS语音 Wan2.2 视频超分

GLM-OCR

模型介绍

最新动态

下载模型

模型运行

SDK CLI 使用指南

CLI