优云智算
控制台
立即注册
谷歌最新本地模型gemma4最强智能助理hermes agent一个本地免token的智能助理模型全部离线
谷歌最新本地模型gemma4最强智能助理hermes agent一个本地免token的智能助理模型全部离线
star1
0/小时
v1.2
最新
v1.1

谷歌最新本地模型gemma4最强智能助理hermes agent一个本地免token的智能助理模型全部离线

支持webUI打开进行使用 更加简易

  • 已经自动运行ollama服务及hermes agent智能助手
  • 在控制面板打开【SD-WebUI】即可使用智能助手!

一、运行ollama也可以手动执行:

cd /root && bash run.sh

webUI运行界面截图:

image.png

image.png

image.png

以上指令都是在【jupyterlab】,然后打开【终端】输入回车执行!

打开webUI可以切换模型:

/model gemma4:e2b # 切换到 e2b 版本(7.2GB,轻量) /model gemma4:26b # 切换到 26B 版本(19GB,当前默认) /model gemma4:31b # 切换到 31B 版本(19GB)


以上指令都是在【jupyterlab】,然后打开【终端】输入回车执行!

进入hermes里面切换模型: 切换 Ollama 本地模型示例

/model gemma4:e2b # 切换到 e2b 版本(7.2GB,轻量) /model gemma4:26b # 切换到 26B 版本(19GB,当前默认) /model gemma4:31b # 切换到 31B 版本(19GB)



Hermes Agent 使用手册

Hermes Agent 是由 Nous Research 开发的开源 AI Agent,支持多种模型提供商和自定义配置。

目录


安装

自动安装(推荐)

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

手动安装

如果自动安装脚本中的 curl 有问题,可以手动下载:

# 1. 下载安装脚本
wget https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh -O install.sh

# 2. 安装 uv(Python 包管理器)
wget https://astral.sh/uv/install.sh -O uv-install.sh
bash uv-install.sh

# 3. 克隆仓库
git clone https://github.com/NousResearch/hermes-agent.git ~/.hermes/hermes-agent

# 4. 创建虚拟环境并安装
cd ~/.hermes/hermes-agent
uv venv venv --python 3.11
source venv/bin/activate
uv pip install -e .

# 5. 添加到 PATH
export PATH="~/.local/bin:$PATH"

快速开始

  1. 激活虚拟环境并启动

    source ~/.hermes/hermes-agent/venv/bin/activate
    hermes
    
  2. 首次运行会自动提示配置

    • 选择模型提供商
    • 输入 API Key
    • 配置基础选项
  3. 或使用交互式设置向导

    hermes setup
    

基本命令

hermes                    # 启动交互式 CLI
hermes model              # 选择/切换模型
hermes tools              # 配置工具集
hermes config set         # 设置配置项
hermes config edit        # 编辑配置文件
hermes gateway            # 启动消息网关
hermes setup              # 运行完整设置向导
hermes update             # 更新到最新版本
hermes doctor             # 诊断问题

斜杠命令(运行时使用)

命令功能
/new/reset开始新对话
/model <模型>切换模型
/retry重试上一轮
/undo撤销上一轮
/compress压缩上下文
/usage查看用量统计
/skills浏览技能列表
/verbose切换详细输出
/help显示帮助

模型配置

支持的提供商

提供商说明API Key 环境变量
openrouterOpenRouter(200+ 模型)OPENROUTER_API_KEY
nousNous Portal OAuth通过 hermes login
geminiGoogle AI StudioGOOGLE_API_KEY
zaiZ.AI / ZhipuAI GLMGLM_API_KEY
kimi-codingKimi / MoonshotKIMI_API_KEY
minimaxMiniMaxMINIMAX_API_KEY
anthropicAnthropic ClaudeANTHROPIC_API_KEY
openaiOpenAIOPENAI_API_KEY
deepseekDeepSeekDEEPSEEK_API_KEY
huggingfaceHugging FaceHF_TOKEN
copilotGitHub CopilotGITHUB_TOKEN
custom自定义 OpenAI 兼容端点自定义

配置默认模型

方法 1:使用命令

# 查看可用模型
hermes model

# 运行时切换模型
/model anthropic/claude-sonnet-4.5

# 使用特定提供商
/model openrouter:google/gemini-2.5-flash

方法 2:编辑配置文件

# ~/.hermes/config.yaml
model:
  default: "anthropic/claude-sonnet-4.5"
  provider: "openrouter"  # 或 "auto" 自动检测

使用 OpenRouter

OpenRouter 是一个聚合平台,支持 200+ 模型,通过单一 API 访问。

  1. 获取 API Key:访问 https://openrouter.ai/keys

  2. 配置

    # 方式 1:环境变量
    echo "OPENROUTER_API_KEY=sk-xxx" >> ~/.hermes/.env
    
    # 方式 2:config.yaml
    # ~/.hermes/config.yaml
    model:
      default: "anthropic/claude-opus-4.6"
      provider: "openrouter"
      base_url: "https://openrouter.ai/api/v1"
    
  3. 常用模型

    model:
      default: "anthropic/claude-opus-4.6"       # 推荐
      default: "google/gemini-3-pro-preview"      # Gemini Pro
      default: "google/gemini-3-flash-preview"    # Gemini Flash(快速/便宜)
      default: "qwen/qwen3.5-plus-02-15"          # Qwen
      default: "deepseek/deepseek-chat"           # DeepSeek
    

使用 Nous Portal

  1. OAuth 登录

    hermes login
    # 选择 Nous Portal 提供商
    
  2. 配置

    model:
      provider: "nous"
      # Nous 会自动使用登录凭证
    

使用 Google AI Studio (Gemini)

  1. 获取 API Keyhttps://aistudio.google.com/app/apikey

  2. 配置

    echo "GOOGLE_API_KEY=your-key" >> ~/.hermes/.env
    
  3. config.yaml

    model:
      provider: "gemini"
      default: "gemini-3-flash-preview"
    
  4. 可用的 Gemini 模型

    model:
      default: "gemini-3.1-pro-preview"           # Gemini 3.1 Pro
      default: "gemini-3-flash-preview"           # Gemini 3 Flash
      default: "gemini-2.5-pro"                   # Gemini 2.5 Pro
      default: "gemini-2.5-flash"                 # Gemini 2.5 Flash
      default: "gemma-4-31b-it"                  # Gemma 4 (31B)
      default: "gemma-4-26b-it"                  # Gemma 4 (26B)
    

使用自定义端点

这是使用 Gemma 等自定义模型的关键部分!

基本配置

# ~/.hermes/config.yaml
model:
  provider: "custom"           # 关键:设为 custom
  base_url: "https://your-api-endpoint.com/v1"  # 你的 API 地址
  # api_key: "your-key"        # 如需要认证

自定义模型示例

Gemma 模型

Gemma 是 Google 的开源模型,可以通过多种方式使用:

方式 1:OpenRouter(推荐)

model:
  provider: "openrouter"
  default: "google/gemma-4-31b-it"

方式 2:Google AI Studio

model:
  provider: "gemini"
  default: "gemma-4-31b-it"

方式 3:自定义 API 端点

如果使用第三方托管的 Gemma:

model:
  provider: "custom"
  base_url: "https://api.example.com/v1"
  default: "gemma-4-31b-it"

环境变量:

echo "CUSTOM_API_KEY=your-gemma-api-key" >> ~/.hermes/.env

Ollama 本地模型

Ollama 允许在本地运行开源模型(如 Llama, Qwen, Mistral, Gemma 等)。

  1. 安装 Ollamahttps://ollama.com/download

  2. 下载模型

    ollama pull llama3.2
    ollama pull qwen2.5
    ollama pull gemma3
    
  3. 启动 Ollama 服务

    ollama serve  # 默认 http://localhost:11434
    
  4. 配置 Hermes

    # ~/.hermes/config.yaml
    model:
      provider: "ollama"         # 或 "custom"
      base_url: "http://localhost:11434/v1"
      default: "llama3.2"
    

    或使用别名(更简洁):

    model:
      provider: "lmstudio"       # lmstudio、ollama、vllm 都映射到 custom
      base_url: "http://localhost:11434/v1"
      default: "llama3.2"
    
  5. 运行时切换

    /model ollama:llama3.2
    /model custom:mistral
    

Ollama Cloud(云端)

model:
  provider: "custom"
  base_url: "https://ollama.com/v1"
  default: "qwen2.5:14b"

Gemma 4 本地模型配置(详细指南)

Gemma 4 是 Google 最新开源模型,提供 4B、26B、31B 三种规格。本节详细说明如何配置到 Hermes Agent 使用。

方式一:Ollama(推荐)

步骤 1:下载 Gemma 4 模型
# 安装/更新 Ollama(如果还没安装)
# macOS/Linux: curl -fsSL https://ollama.com/install.sh | sh
# Windows: 从 https://ollama.com/download 下载

# 下载 Gemma 4 不同尺寸
ollama pull gemma4:4b        # 4B 版本(最快,适合轻量任务)
ollama pull gemma4:12b       # 12B 版本(平衡)
ollama pull gemma4:27b       # 27B 版本(更强性能)

# 也可以下载带指令微调的版本
ollama pull gemma4:4b-instruct
ollama pull gemma4:27b-instruct-fp16

# 查看已下载的模型
ollama list
步骤 2:启动 Ollama 服务
# 如果服务未运行
ollama serve

# 服务地址: http://localhost:11434
步骤 3:配置 Hermes
# ~/.hermes/config.yaml

# 基本配置
model:
  provider: "ollama"                      # Ollama 提供商
  base_url: "http://localhost:11434/v1"   # Ollama API 地址
  default: "gemma4:27b"                   # 默认使用 27B 版本

使用不同尺寸的 Gemma 4:

# 配置 4B 版本(快速响应)
model:
  provider: "ollama"
  base_url: "http://localhost:11434/v1"
  default: "gemma4:4b"

# 配置 12B 版本(平衡)
model:
  provider: "ollama"
  base_url: "http://localhost:11434/v1"
  default: "gemma4:12b"

# 配置 27B 版本(最强性能)
model:
  provider: "ollama"
  base_url: "http://localhost:11434/v1"
  default: "gemma4:27b"
步骤 4:运行时切换 Gemma 4 尺寸
# 在 Hermes 对话中切换
/model ollama:gemma4:4b      # 切换到 4B
/model ollama:gemma4:12b     # 切换到 12B
/model ollama:gemma4:27b     # 切换到 27B
设置 Gemma 4 模型别名(推荐)

为了更方便地切换不同尺寸,建议配置模型别名:

# ~/.hermes/config.yaml
model_aliases:
  # Gemma 4 系列
  gemma4-small:
    model: "gemma4:4b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  gemma4-medium:
    model: "gemma4:12b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  gemma4-large:
    model: "gemma4:27b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  # 快速切换命令
  /model gemma4-small   # 使用 4B 版本
  /model gemma4-medium  # 使用 12B 版本
  /model gemma4-large   # 使用 27B 版本

方式二:LM Studio

步骤 1:下载并安装 LM Studio
  1. 访问 https://lmstudio.ai/ 下载 LM Studio
  2. 下载 Gemma 4 的 GGUF 模型文件(从 Hugging Face 等源)
步骤 2:在 LM Studio 中加载模型
  1. 打开 LM Studio
  2. 在左侧搜索并下载 Gemma 4 模型
  3. 选择要加载的模型和量化版本(推荐 Q4_K_M 平衡性能和内存)
  4. 点击 Load 加载模型
步骤 3:启用 API Server
  1. 点击 LM Studio 左下角的 Developer 图标(或类似图标)
  2. 启用 Local ServerOpenAI Compatible Server
  3. 默认地址:http://localhost:1234/v1
步骤 4:配置 Hermes
# ~/.hermes/config.yaml
model:
  provider: "lmstudio"
  base_url: "http://localhost:1234/v1"
  default: "gemma-4-27b"    # LM Studio 中显示的模型名称

注意:LM Studio 中的模型名称可能与 Ollama 不同,请查看 LM Studio 界面显示的模型名称。

方式三:vLLM 部署

适用于有 GPU 的服务器部署。

步骤 1:安装 vLLM
pip install vllm
步骤 2:启动 vLLM 服务
# 单 GPU
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --port 8000 \
  --tensor-parallel-size 1

# 多 GPU(以 2 卡为例)
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --port 8000 \
  --tensor-parallel-size 2

# 或使用 Hugging Face 格式
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --hf-token YOUR_HF_TOKEN \
  --port 8000
步骤 3:配置 Hermes
# ~/.hermes/config.yaml
model:
  provider: "custom"
  base_url: "http://localhost:8000/v1"
  default: "google/gemma-4-27b-it"

方式四:第三方云端 API

Groq(免费 tier 有 Gemma)
# ~/.hermes/config.yaml
model:
  provider: "custom"
  base_url: "https://api.groq.com/openai/v1"
  default: "gemma2-27b-it"    # Groq 上的模型名

环境变量:

echo "GROQ_API_KEY=xxx" >> ~/.hermes/.env
其他第三方服务

配置格式类似:

model:
  provider: "custom"
  base_url: "https://api.your-provider.com/v1"
  default: "gemma-4-27b"

Gemma 4 配置文件完整示例

# ~/.hermes/config.yaml

# =============================================
# Gemma 4 模型配置
# =============================================

# 主配置 - 使用 Ollama 本地运行
model:
  provider: "ollama"
  base_url: "http://localhost:11434/v1"
  default: "gemma4:27b"           # 默认使用 27B

# 模型别名 - 方便切换不同尺寸
model_aliases:
  # Ollama Gemma 4 系列
  gemma4-tiny:
    model: "gemma4:4b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  gemma4-small:
    model: "gemma4:12b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  gemma4-large:
    model: "gemma4:27b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  # LM Studio(备选方案)
  gemma4-lmstudio:
    model: "gemma-4-27b"
    provider: "lmstudio"
    base_url: "http://localhost:1234/v1"
  
  # 云端 Groq(极速)
  gemma4-groq:
    model: "gemma2-27b-it"
    provider: "custom"
    base_url: "https://api.groq.com/openai/v1"

Gemma 4 使用示例

# 启动 Hermes
source ~/.hermes/hermes-agent/venv/bin/activate
hermes

# 在对话中使用:
/model gemma4-tiny     # 使用 4B(快速响应)
/model gemma4-small    # 使用 12B(平衡)
/model gemma4-large    # 使用 27B(最强)
/model gemma4-groq    # 使用 Groq 云端(极速,需要网络)

Gemma 4 各尺寸规格对比

版本参数量内存需求(FP16)内存需求(Q4)推荐用途
4B4B~8GB~3GB快速响应、轻量任务
12B12B~24GB~8GB平衡性能与资源
27B27B~54GB~18GB最强性能、复杂任务

硬件建议

  • 4B:消费级 GPU(如 RTX 3060)或 Mac M1+
  • 12B:中等 GPU(如 RTX 3090)或 Mac M2+
  • 27B:高端 GPU(如 RTX 4090 x2)或 Mac M3 Max

常见问题

Q: Ollama 显示模型找不到?

# 确认模型已下载
ollama list

# 确认模型名称正确(区分大小写)
ollama show gemma4:27b

Q: 运行时内存不足?

# 使用更小的量化版本
ollama pull gemma4:27b-q4_k_m

# 或使用更小的模型
ollama pull gemma4:12b
ollama pull gemma4:4b

Q: 响应速度慢?

# 使用更小的模型
/model gemma4:4b

# 或在 Ollama 中调整 num_ctx(上下文窗口大小)
# 编辑 ~/.ollama/models/manifests/ 下的配置

LM Studio 模型

LM Studio 提供本地模型服务,带有 OpenAI 兼容 API。

  1. 下载 LM Studiohttps://lmstudio.ai/

  2. 下载并加载模型

  3. 启用 API Server(点击 LM Studio 左下角图标)

  4. 配置 Hermes

    model:
      provider: "lmstudio"
      base_url: "http://localhost:1234/v1"
      default: "qwen2.5-14b"
    

DeepSeek 模型

# 方式 1:OpenRouter
model:
  provider: "openrouter"
  default: "deepseek/deepseek-chat"

# 方式 2:直接使用 DeepSeek API
model:
  provider: "deepseek"
  # 需要设置 DEEPSEEK_API_KEY

Qwen 模型

# 方式 1:OpenRouter
model:
  provider: "openrouter"
  default: "qwen/qwen3.5-plus-02-15"

# 方式 2:Alibaba DashScope
model:
  provider: "alibaba"
  default: "qwen3.5-plus"

配置文件说明

config.yaml

主配置文件位于 ~/.hermes/config.yaml

# =============================================
# 模型配置
# =============================================
model:
  # 默认模型
  default: "anthropic/claude-sonnet-4.5"
  
  # 提供商:auto, openrouter, nous, gemini, custom 等
  provider: "auto"
  
  # API 地址(custom 提供商需要)
  base_url: "https://openrouter.ai/api/v1"
  
  # API Key(可选,也可放在 .env)
  # api_key: "sk-xxx"

# =============================================
# 智能模型路由(可选)
# =============================================
smart_model_routing:
  enabled: true
  max_simple_chars: 160
  cheap_model:
    provider: openrouter
    model: google/gemini-3-flash-preview

# =============================================
# 模型别名(简短命令)
# =============================================
model_aliases:
  opus:
    model: claude-opus-4-6
    provider: anthropic
  my-gemma:
    model: gemma-4-31b-it
    provider: custom
    base_url: "https://my-gemma-api.com/v1"

# =============================================
# 终端配置
# =============================================
terminal:
  backend: "local"    # local, docker, ssh, modal, singularity
  cwd: "."
  timeout: 180

# =============================================
# 工具集配置
# =============================================
platform_toolsets:
  cli: [hermes-cli]
  telegram: [hermes-telegram]

# =============================================
# Agent 行为
# =============================================
agent:
  max_turns: 60
  reasoning_effort: "medium"  # xhigh, high, medium, low, minimal, none

# =============================================
# 上下文压缩
# =============================================
compression:
  enabled: true
  threshold: 0.50
  summary_model: "google/gemini-3-flash-preview"

.env 文件

API 密钥和敏感配置,位于 ~/.hermes/.env

# =============================================
# LLM 提供商 API Keys
# =============================================

# OpenRouter(推荐)
OPENROUTER_API_KEY=sk-or-v1-xxx

# Google AI Studio / Gemini
GOOGLE_API_KEY=xxx

# 自定义端点(如使用第三方 Gemma 服务)
CUSTOM_API_KEY=xxx

# 其他提供商...
# GLM_API_KEY=xxx
# KIMI_API_KEY=xxx
# MINIMAX_API_KEY=xxx
# HF_TOKEN=xxx

# =============================================
# 工具 API Keys
# =============================================
EXA_API_KEY=xxx              # 网页搜索
FIRECRRAWL_API_KEY=xxx       # 网页爬取
FAL_KEY=xxx                  # 图像生成

# =============================================
# 终端配置
# =============================================
TERMINAL_TIMEOUT=60

工具集配置

Hermes 提供了模块化的工具集系统:

可用工具集

工具集功能说明
web网页搜索和内容提取Exa, Firecrawl
terminal命令执行本地/Docker/SSH
file文件操作读写搜索
browser浏览器自动化需要 Browserbase
vision图像分析多模态模型
image_gen图像生成FLUX
skills技能系统记忆和技能
todo任务规划清单管理
tts语音合成Edge TTS
cronjob定时任务调度器

配置示例

# 只给 Telegram 启用水印工具
platform_toolsets:
  cli: [hermes-cli]                    # CLI 完整工具
  telegram: [terminal, file, web]      # Telegram 只读工具
  discord: [web, vision, skills]        # Discord 受限工具

运行时切换:

hermes chat --toolsets web,file,terminal

高级配置

智能路由

自动使用便宜模型处理简单问题:

smart_model_routing:
  enabled: true
  max_simple_chars: 160
  max_simple_words: 28
  cheap_model:
    provider: openrouter
    model: google/gemini-3-flash-preview

上下文压缩

自动压缩长对话以节省 token:

compression:
  enabled: true
  threshold: 0.50        # 50% 时触发
  target_ratio: 0.20     # 保留 20% 最近上下文
  protect_last_n: 20     # 保护最近 20 条消息
  summary_model: "google/gemini-3-flash-preview"

终端后端配置

本地执行(默认)

terminal:
  backend: "local"
  cwd: "."

Docker 容器

terminal:
  backend: "docker"
  docker_image: "nikolaik/python-nodejs:python3.11-nodejs20"
  cwd: "/workspace"

SSH 远程

terminal:
  backend: "ssh"
  ssh_host: "my-server.com"
  ssh_user: "myuser"
  cwd: "/home/myuser/project"
terminal:
  backend: "modal"
  modal_image: "nikolaik/python-nodejs:python3.11-nodejs20"

常见问题

Q: 如何切换模型?

# 运行时
/model openrouter:google/gemini-2.5-flash

# 或编辑 config.yaml
hermes config set model.default "google/gemini-2.5-flash"

Q: 如何使用本地模型(如本地 Gemma)?

# 1. 安装 Ollama 并下载模型
ollama pull gemma3

# 2. 启动服务
ollama serve

# 3. 配置 Hermes
# ~/.hermes/config.yaml
model:
  provider: "custom"
  base_url: "http://localhost:11434/v1"
  default: "gemma3"

Q: 自定义 API 端点如何配置?

# ~/.hermes/config.yaml
model:
  provider: "custom"
  base_url: "https://your-custom-api.com/v1"
  # api_key: "xxx"  # 如需要

Q: 如何设置模型别名?

# ~/.hermes/config.yaml
model_aliases:
  fast:
    model: google/gemini-3-flash-preview
    provider: openrouter
  local:
    model: llama3.2
    provider: custom
    base_url: "http://localhost:11434/v1"

使用时:

/model fast    # 使用 Gemini Flash
/model local   # 使用本地 Llama

Q: API Key 放在哪里?

放入 ~/.hermes/.env

OPENROUTER_API_KEY=sk-or-v1-xxx
GOOGLE_API_KEY=xxx
CUSTOM_API_KEY=xxx

Q: 如何查看当前配置?

hermes config
# 或
cat ~/.hermes/config.yaml

附录:完整配置模板

# ~/.hermes/config.yaml

model:
  default: "anthropic/claude-sonnet-4.5"
  provider: "auto"
  base_url: "https://openrouter.ai/api/v1"

terminal:
  backend: "local"
  cwd: "."
  timeout: 180

agent:
  max_turns: 60
  reasoning_effort: "medium"

compression:
  enabled: true
  threshold: 0.50
  summary_model: "google/gemini-3-flash-preview"

platform_toolsets:
  cli: [hermes-cli]
  telegram: [hermes-telegram]
  discord: [hermes-telegram]

display:
  tool_progress: all
  streaming: true
  skin: default

更多信息请访问:https://hermes-agent.nousresearch.com/docs/


GPU 运行 Ollama 使用说明

环境信息

  • GPU: NVIDIA GeForce RTX 4090 (24GB VRAM)
  • CUDA: 13.0
  • Ollama 版本: 0.20.4

安装步骤

1. 下载 GPU 版本 Ollama

从 Ollama 官网下载 Linux AMD64 GPU 版本:

curl -fsSL https://ollama.com/install.sh | sh

或直接下载压缩包:

wget https://ollama.com/download/ollama-linux-amd64.tar.zst

2. 解压安装

# 解压
tar -I zstd -xf ollama-linux-amd64.tar.zst

# 复制到系统路径
cp -r bin/* /usr/local/bin/
cp -r lib/* /usr/local/lib/

3. 验证 GPU 支持

nvidia-smi

输出应显示 NVIDIA GPU 信息。

启动与运行

1. 启动 Ollama 服务

# 后台启动
export OLLAMA_HOST=0.0.0.0:11434
nohup /usr/local/bin/ollama serve > /tmp/ollama.log 2>&1 &

# 或前台启动
/usr/local/bin/ollama serve

2. 查看可用模型

/usr/local/bin/ollama list

3. 运行模型(使用 GPU)

# 交互式运行
/usr/local/bin/ollama run gemma4:e2b

# 或使用管道
echo "Hello" | /usr/local/bin/ollama run gemma4:e2b

验证 GPU 使用

方法 1: 查看 nvidia-smi

nvidia-smi

输出示例:

+-----------------------------------------------------------------------------------------+
| GPU  Name                 Memory-Usage | GPU-Util | Compute M.                        |
+-----------------------------------------------------------------------------------------+
|   0  NVIDIA GeForce RTX 4090    7809MiB / 24564MiB |      0%      Default            |
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|    0   N/A  N/A            1330      C   /usr/local/bin/ollama                  7800MiB |
+-----------------------------------------------------------------------------------------+

方法 2: 查看 Ollama 日志

tail -f /tmp/ollama.log

关键日志信息:

time=... level=INFO source=types.go:42 msg="inference compute" ... library=CUDA compute=8.9 name=CUDA0 description="NVIDIA GeForce RTX 4090" ...
load_backend: loaded CUDA backend from /usr/local/lib/ollama/cuda_v13/libggml-cuda.so
GPULayers:36[ID:GPU-... Layers:36(0..35)]

常用命令

# 启动服务
ollama serve

# 查看模型列表
ollama list

# 运行模型
ollama run <model-name>

# 查看模型信息
ollama show <model-name>

# 停止服务
pkill -f ollama

注意事项

  1. 确保已安装 NVIDIA GPU 驱动和 CUDA
  2. 模型文件通常较大(7-20GB),确保磁盘空间充足
  3. 如果模型加载失败,检查 GPU 内存是否足够
  4. 可以通过设置环境变量调整 GPU 使用:OLLAMA_GPU_OVERHEAD=0
@科哥AIGC
科哥AIGC认证作者
镜像信息
已使用0
运行时长
0 H
支持自启动
镜像大小
150GB
最后更新时间
2026-04-09
支持卡型
3090RTX40系RTX50系48G RTX40系3080Ti2080Ti2080A800H20P40V100SA100
+12
框架版本
PyTorch-2.8
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.2
2026-04-09
PyTorch:2.8 | CUDA:12.8 | 大小:150.00GB
v1.1
2026-04-09
PyTorch:2.8 | CUDA:12.8 | 大小:150.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台