Gemma 3 是谷歌最新推出的开源轻量级多模态模型,被称为全球最强的单加速器模型,在单 GPU 或 TPU 环境下表现显著优于其他同类模型。它支持超过 140 种语言的预训练,直接支持超过 35 种语言,具备分析文本、图像及短视频的能力,提供了四种不同尺寸的模型(1B、4B、12B 和 27B),满足不同硬件和性能需求,支持在多种设备上进行 AI 应用开发。
bashrc
中已设置export AIOHTTP_CLIENT_TIMEOUT_MODEL_LIST=5
,设置 Open-WebUI 在连接不上 API 只需要暂停加载 5 秒,默认是暂停 5 分钟。`
ollama serve
11434
端口:open-webui serve
8080
端口,当出现以下输出信息时说明服务已经成功启动:实例外网ip:8080
,外网ip可以在控制台-基础网络(外)中获取,打开可视化页面并登录用户:gemma3:12b
模型,可以在页面的左上角切换其他尺寸的 Gemma 3 模型:发送消息
按钮即可跟模型开始对话,模型的回复结果也会在对话历史记录中以流式输出进行展示:因为模型初始化需要经过模型加载阶段、GPU 初始化与显存分配、模型参数初始化、并行化配置、服务端预热等过程,所以首次延迟是本地部署大模型的典型现象,后续推理速度会显著提升!
在/model/HuggingFace/google
下有gemma-3
所有的开源模型。其中,pt
结尾是预训练基座模型,it
结尾的是指令微调版本,建议使用it
结尾的模型来运行官方的代码示例:
python demo.py --model_id /model/HuggingFace/google/gemma-3-4b-it
运行这个代码示例试试让 Gemma-3-4b 模型描述以下图片中的细节:
输出结果如下:
Really Good!Let‘s enjoy it!