0更多操作请看官方文档:https://github.com/zai-org/GLM-OCR/blob/main/README_zh.md
GLM-OCR 是一款面向复杂文档理解的多模态 OCR 模型,基于 GLM-V 编码器—解码器架构构建。它引入 Multi-Token Prediction(MTP)损失与稳定的全任务强化学习训练策略,以提升训练效率、识别精度与泛化能力。模型集成了在大规模图文数据上预训练的 CogViT 视觉编码器、带高效 token 下采样的轻量跨模态连接器,以及 GLM-0.5B 语言解码器。结合基于 PP-DocLayout-V3 的“两阶段”流程——先做版面分析,再进行并行识别——GLM-OCR 能在多样化文档布局下提供稳健且高质量的 OCR 表现。
关键特性
业界领先的效果:在 OmniDocBench V1.5 上取得 94.62 分,综合排名第一;并在公式识别、表格识别、信息抽取等主流文档理解基准上达到 SOTA 水平。
面向真实场景优化:针对实际业务需求进行设计与优化,在复杂表格、代码密集文档、印章等各类真实且高难版面场景中依然保持稳定表现。
高效推理:总参数量仅 0.9B,支持通过 vLLM、SGLang 与 Ollama 部署,显著降低推理时延与算力成本,适用于高并发服务与端侧部署。
上手简单:全面开源,并提供完整 SDK 与推理工具链,支持便捷安装、一行调用、以及与现有生产流程的顺滑集成。
pip install glmocr + 配置 API Key,即可通过 CLI 或 Python 直接使用,无需 GPU 和 YAML 配置。详情见:GLM-OCR Skill本镜像已经安装好模型,位于:/root/.cache/modelscope/hub/models/ZhipuAI/GLM-OCR
cd /workspace/GLM-OCR
vllm serve /root/.cache/modelscope/hub/models/ZhipuAI/GLM-OCR --allowed-local-media-path / --port 8080 --speculative-config '{"method": "mtp", "num_speculative_tokens": 1}' --served-model-name glm-ocr
运行需要时间较久,需等到出现ip端口
# 解析单张图片
cd /workspace/GLM-OCR
glmocr parse examples/source/code.png --config glmocr/config.yaml
# 解析目录
cd /workspace/GLM-OCR
glmocr parse examples/source/ --config glmocr/config.yaml
# 指定输出目录
cd /workspace/GLM-OCR
glmocr parse examples/source/code.png --output ./results/ --config glmocr/config.yaml
认证作者