镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
LLM
WebUI
Ollama-Gemma 3
Google发布的Gemma_3全系列模型 + Open-Webui
0/小时
v1.0

Gemma 3 是什么

image

Gemma 3 是谷歌最新推出的开源轻量级多模态模型,被称为全球最强的单加速器模型,在单 GPU 或 TPU 环境下表现显著优于其他同类模型。它支持超过 140 种语言的预训练,直接支持超过 35 种语言,具备分析文本、图像及短视频的能力,提供了四种不同尺寸的模型(1B、4B、12B 和 27B),满足不同硬件和性能需求,支持在多种设备上进行 AI 应用开发。

Gemma 3 镜像简介

  1. 镜像预先下载了 Gemma 3 尺寸为 1B、4B、12B 和 27B 的大模型,无需重复下载模型,加载模型快人一步!
  2. 基于 Ollama 可以快速部署 Gemma 3 不同尺寸的大模型,并安装了 Open-WebUI 以快速实现可视化聊天。
  3. bashrc中已设置export AIOHTTP_CLIENT_TIMEOUT_MODEL_LIST=5,设置 Open-WebUI 在连接不上 API 只需要暂停加载 5 秒,默认是暂停 5 分钟。

如何运行 Gemma 3

1. 启动 Ollama 服务和 Open-WebUI 服务

待实例初始化完成后,在控制台-应用中打开JupyterLab,新建一个终端Terminal,运行以下命令启动 Ollama 服务:

`

ollama serve

如图所示,成功启动 Ollama 后服务默认运行在 11434 端口:

image

注意不要关闭前一个终端窗口。下一步,另外新建一个终端,运行以下命令启动 Open-WebUI 服务:

open-webui serve

Open-WebUI 服务默认运行在 8080 端口,当出现以下输出信息时说明服务已经成功启动:

image

2. 打开可视化页面

成功启动 Ollama 服务和 Open-WebUI 服务后,通过本地浏览器访问实例外网ip:8080,外网ip可以在控制台-基础网络(外)中获取,打开可视化页面并登录用户:

image

登录 Open-WebUI 默认的管理员邮箱是 root@root.com,密码是 root。

3. 选择模型

默认使用gemma3:12b模型,可以在页面的左上角切换其他尺寸的 Gemma 3 模型:

image

4. 开始对话

在对话框在输入问题后点击发送消息按钮即可跟模型开始对话,模型的回复结果也会在对话历史记录中以流式输出进行展示:

image

因为模型初始化需要经过模型加载阶段、GPU 初始化与显存分配、模型参数初始化、并行化配置、服务端预热等过程,所以首次延迟是本地部署大模型的典型现象,后续推理速度会显著提升!

运行官方的代码示例

/model/HuggingFace/google下有gemma-3所有的开源模型。其中,pt结尾是预训练基座模型,it结尾的是指令微调版本,建议使用it结尾的模型来运行官方的代码示例:

python demo.py --model_id /model/HuggingFace/google/gemma-3-4b-it

运行这个代码示例试试让 Gemma-3-4b 模型描述以下图片中的细节:

image

输出结果如下:

image

Really Good!Let‘s enjoy it!

资源

镜像信息
@苍耳阿猫
已使用
29
镜像大小70GB
最近编辑2025-03-13
支持卡型
RTX40系48G RTX40系3080Ti3090P40
+5
框架版本
PyTorch-2.3.0+cu121
CUDA版本
12.1
应用
JupyterLab: 8888
版本
v1.0
2025-06-23
PyTorch:2.3.0+cu121 | CUDA:12.1 | 大小:70.00GB
优云智算 | Ollama-Gemma 3一键部署