控制台

立即注册

OmniParser

OmniParser 是微软推出的一款强大的屏幕解析工具，专注于将用户界面截图转化为结构化元素，从而提升视觉模型在图形界面中的交互能力。它通过细粒度的图标检测和交互性预测，为自动化测试、智能助手开发以及无障碍技术提供了强大的支持

0元/小时

v1.0

OmniParser 镜像使用教程

介绍

OmniParser 是微软推出的一款强大的屏幕解析工具，专注于将用户界面截图转化为结构化元素，从而提升视觉模型在图形界面中的交互能力。它通过细粒度的图标检测和交互性预测，为自动化测试、智能助手开发以及无障碍技术提供了强大的支持。

开源地址：github.com/microsoft/OmniParser

OmniParser 使用 Python 编程语言开发，并结合了 YOLO、BLIP2 和 Florence 等前沿技术，能够与多种语言模型无缝对接。其 V2 版本在性能上取得了显著提升，成为视觉代理领域的最新标杆。无论是开发者还是研究人员，OmniParser 都是一个值得尝试的开源项目。

镜像启动步骤

1. 先选择GPU型号，再点击“立即部署”

使用该镜像部署示例（机器开机成功后稍等 1-2 分钟），会自动启动 OmniParser WebUI 服务

2. 在浏览器中输入以下地址启动WebUI界面，IP替换为实例的外网IP，外网IP可以在控制台-基础网络（外）中获取

http://IP:7861/

3. 在线调试和调用 API 接口

http://IP:8000/docs

4. 若未自动启动WebUI和Server，可按照如下操作手动启动。OmniParser 项目目录 `/root/OmniParser`，手动启动命令：

WebUI：python /root/OmniParser/gradio_demo.py
Server：python -m omniparserserver --device cuda (先进入到 /root/OmniParser/omnitool/omniparserserver 目录）

配置

最低：3080Ti（1 卡）
推荐：RTX40 系（1 卡）

@HelloGitHub

镜像信息

已使用44 次

运行时长

2018 H

镜像大小

50GB

最后更新时间

2025-07-14

支持卡型

RTX40系20803080Ti309048G RTX40系2080TiH20A800P40A100RTX50系V100S

+12

框架版本

Miniconda-24.11.1

CUDA版本

12.4

应用

JupyterLab: 8888

版本

v1.0

2025-07-14

Miniconda:24.11.1 | CUDA:12.4 | 大小:50.00GB

隶属于优刻得科技股份有限公司

股票代码：688158

优刻得是中立、安全的云计算服务平台

友情链接 :

优刻得

产品

GPU实例 GPU镜像社区模型API服务 Coding Plan

快速入口

文档中心 API文档用户协议

镜像合集

AI4S 数字人 TTS语音 Wan2.2 视频超分