镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
其他
OmniParser
微软开源的屏幕解析工具,旨在将用户界面的屏幕截图解析为结构化且易于理解的元素。
0/小时
v1.0

OmniParser

介绍

OmniParser 是微软推出的一款强大的屏幕解析工具,专注于将用户界面截图转化为结构化元素,从而提升视觉模型在图形界面中的交互能力。它通过细粒度的图标检测和交互性预测,为自动化测试、智能助手开发以及无障碍技术提供了强大的支持。

开源地址:github.com/microsoft/OmniParser

OmniParser 使用 Python 编程语言开发,并结合了 YOLO、BLIP2 和 Florence 等前沿技术,能够与多种语言模型无缝对接。其 V2 版本在性能上取得了显著提升,成为视觉代理领域的最新标杆。无论是开发者还是研究人员,OmniParser 都是一个值得尝试的开源项目。

镜像启动步骤

1. 先选择GPU型号,再点击“立即部署”

image

使用该镜像部署示例(机器开机成功后稍等 1-2 分钟),会自动启动 OmniParser WebUI 服务

2. 在浏览器中输入以下地址启动WebUI界面,IP替换为实例的外网IP,外网IP可以在控制台-基础网络(外)中获取

http://IP:7861/

image

3. 在线调试和调用 API 接口

http://IP:8000/docs

image

4. 若未自动启动WebUI和Server,可按照如下操作手动启动。OmniParser 项目目录 /root/OmniParser,手动启动命令:

  • WebUI:python /root/OmniParser/gradio_demo.py
  • Server:python -m omniparserserver --device cuda (先进入到 /root/OmniParser/omnitool/omniparserserver 目录)

配置

  • 最低:3080Ti(1 卡)
  • 推荐:RTX40 系(1 卡)
镜像信息
@HelloGitHub
已使用
19
镜像大小50GB
最近编辑2025-02-21
支持卡型
3080Ti3090RTX40系48G RTX40系
+4
框架版本
Miniconda-24.11.1
CUDA版本
12.4
应用
JupyterLab: 8888
版本
v1.0
2025-07-01
Miniconda:24.11.1 | CUDA:12.4 | 大小:50.00GB