控制台

立即注册

谷歌最新本地模型gemma4最强智能助理hermes agent一个本地免token的智能助理模型全部离线

0元/小时

v1.2

谷歌最新本地模型gemma4最强智能助理hermes agent一个本地免token的智能助理模型全部离线

支持webUI打开进行使用更加简易

已经自动运行ollama服务及hermes agent智能助手
在控制面板打开【SD-WebUI】即可使用智能助手！

一、运行ollama也可以手动执行：

cd /root && bash run.sh

webUI运行界面截图：

以上指令都是在【jupyterlab】，然后打开【终端】输入回车执行！

打开webUI可以切换模型：

/model gemma4:e2b # 切换到 e2b 版本（7.2GB，轻量） /model gemma4:26b # 切换到 26B 版本（19GB，当前默认） /model gemma4:31b # 切换到 31B 版本（19GB）

以上指令都是在【jupyterlab】，然后打开【终端】输入回车执行！

进入hermes里面切换模型：切换 Ollama 本地模型示例

/model gemma4:e2b # 切换到 e2b 版本（7.2GB，轻量） /model gemma4:26b # 切换到 26B 版本（19GB，当前默认） /model gemma4:31b # 切换到 31B 版本（19GB）

源码地址：
https://github.com/ollama/ollama
https://github.com/NousResearch/hermes-agent

Hermes Agent 使用手册

Hermes Agent 是由 Nous Research 开发的开源 AI Agent，支持多种模型提供商和自定义配置。

安装

自动安装（推荐）

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

手动安装

如果自动安装脚本中的 curl 有问题，可以手动下载：

# 1. 下载安装脚本
wget https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh -O install.sh

# 2. 安装 uv（Python 包管理器）
wget https://astral.sh/uv/install.sh -O uv-install.sh
bash uv-install.sh

# 3. 克隆仓库
git clone https://github.com/NousResearch/hermes-agent.git ~/.hermes/hermes-agent

# 4. 创建虚拟环境并安装
cd ~/.hermes/hermes-agent
uv venv venv --python 3.11
source venv/bin/activate
uv pip install -e .

# 5. 添加到 PATH
export PATH="~/.local/bin:$PATH"

快速开始

激活虚拟环境并启动

source ~/.hermes/hermes-agent/venv/bin/activate
hermes

首次运行会自动提示配置
- 选择模型提供商
- 输入 API Key
- 配置基础选项
或使用交互式设置向导
```
hermes setup
```

基本命令

hermes                    # 启动交互式 CLI
hermes model              # 选择/切换模型
hermes tools              # 配置工具集
hermes config set         # 设置配置项
hermes config edit        # 编辑配置文件
hermes gateway            # 启动消息网关
hermes setup              # 运行完整设置向导
hermes update             # 更新到最新版本
hermes doctor             # 诊断问题

斜杠命令（运行时使用）

命令	功能
`/new` 或 `/reset`	开始新对话
`/model <模型>`	切换模型
`/retry`	重试上一轮
`/undo`	撤销上一轮
`/compress`	压缩上下文
`/usage`	查看用量统计
`/skills`	浏览技能列表
`/verbose`	切换详细输出
`/help`	显示帮助

模型配置

支持的提供商

提供商	说明	API Key 环境变量
`openrouter`	OpenRouter（200+ 模型）	`OPENROUTER_API_KEY`
`nous`	Nous Portal OAuth	通过 `hermes login`
`gemini`	Google AI Studio	`GOOGLE_API_KEY`
`zai`	Z.AI / ZhipuAI GLM	`GLM_API_KEY`
`kimi-coding`	Kimi / Moonshot	`KIMI_API_KEY`
`minimax`	MiniMax	`MINIMAX_API_KEY`
`anthropic`	Anthropic Claude	`ANTHROPIC_API_KEY`
`openai`	OpenAI	`OPENAI_API_KEY`
`deepseek`	DeepSeek	`DEEPSEEK_API_KEY`
`huggingface`	Hugging Face	`HF_TOKEN`
`copilot`	GitHub Copilot	`GITHUB_TOKEN`
`custom`	自定义 OpenAI 兼容端点	自定义

配置默认模型

方法 1：使用命令

# 查看可用模型
hermes model

# 运行时切换模型
/model anthropic/claude-sonnet-4.5

# 使用特定提供商
/model openrouter:google/gemini-2.5-flash

方法 2：编辑配置文件

# ~/.hermes/config.yaml
model:
  default: "anthropic/claude-sonnet-4.5"
  provider: "openrouter"  # 或 "auto" 自动检测

使用 OpenRouter

OpenRouter 是一个聚合平台，支持 200+ 模型，通过单一 API 访问。

获取 API Key：访问 https://openrouter.ai/keys

配置：

# 方式 1：环境变量
echo "OPENROUTER_API_KEY=sk-xxx" >> ~/.hermes/.env

# 方式 2：config.yaml
# ~/.hermes/config.yaml
model:
  default: "anthropic/claude-opus-4.6"
  provider: "openrouter"
  base_url: "https://openrouter.ai/api/v1"

常用模型：

model:
  default: "anthropic/claude-opus-4.6"       # 推荐
  default: "google/gemini-3-pro-preview"      # Gemini Pro
  default: "google/gemini-3-flash-preview"    # Gemini Flash（快速/便宜）
  default: "qwen/qwen3.5-plus-02-15"          # Qwen
  default: "deepseek/deepseek-chat"           # DeepSeek

使用 Nous Portal

OAuth 登录：

hermes login
# 选择 Nous Portal 提供商

配置：

model:
  provider: "nous"
  # Nous 会自动使用登录凭证

使用 Google AI Studio (Gemini)

获取 API Key：https://aistudio.google.com/app/apikey

配置：

echo "GOOGLE_API_KEY=your-key" >> ~/.hermes/.env

config.yaml：

model:
  provider: "gemini"
  default: "gemini-3-flash-preview"

可用的 Gemini 模型：

model:
  default: "gemini-3.1-pro-preview"           # Gemini 3.1 Pro
  default: "gemini-3-flash-preview"           # Gemini 3 Flash
  default: "gemini-2.5-pro"                   # Gemini 2.5 Pro
  default: "gemini-2.5-flash"                 # Gemini 2.5 Flash
  default: "gemma-4-31b-it"                  # Gemma 4 (31B)
  default: "gemma-4-26b-it"                  # Gemma 4 (26B)

使用自定义端点

这是使用 Gemma 等自定义模型的关键部分！

基本配置

# ~/.hermes/config.yaml
model:
  provider: "custom"           # 关键：设为 custom
  base_url: "https://your-api-endpoint.com/v1"  # 你的 API 地址
  # api_key: "your-key"        # 如需要认证

自定义模型示例

Gemma 模型

Gemma 是 Google 的开源模型，可以通过多种方式使用：

方式 1：OpenRouter（推荐）

model:
  provider: "openrouter"
  default: "google/gemma-4-31b-it"

方式 2：Google AI Studio

model:
  provider: "gemini"
  default: "gemma-4-31b-it"

方式 3：自定义 API 端点

如果使用第三方托管的 Gemma：

model:
  provider: "custom"
  base_url: "https://api.example.com/v1"
  default: "gemma-4-31b-it"

环境变量：

echo "CUSTOM_API_KEY=your-gemma-api-key" >> ~/.hermes/.env

Ollama 本地模型

Ollama 允许在本地运行开源模型（如 Llama, Qwen, Mistral, Gemma 等）。

安装 Ollama：https://ollama.com/download

下载模型：

ollama pull llama3.2
ollama pull qwen2.5
ollama pull gemma3

启动 Ollama 服务：

ollama serve  # 默认 http://localhost:11434

配置 Hermes：

# ~/.hermes/config.yaml
model:
  provider: "ollama"         # 或 "custom"
  base_url: "http://localhost:11434/v1"
  default: "llama3.2"

或使用别名（更简洁）：

model:
  provider: "lmstudio"       # lmstudio、ollama、vllm 都映射到 custom
  base_url: "http://localhost:11434/v1"
  default: "llama3.2"

运行时切换：

/model ollama:llama3.2
/model custom:mistral

Ollama Cloud（云端）

model:
  provider: "custom"
  base_url: "https://ollama.com/v1"
  default: "qwen2.5:14b"

Gemma 4 本地模型配置（详细指南）

Gemma 4 是 Google 最新开源模型，提供 4B、26B、31B 三种规格。本节详细说明如何配置到 Hermes Agent 使用。

方式一：Ollama（推荐）

步骤 1：下载 Gemma 4 模型

# 安装/更新 Ollama（如果还没安装）
# macOS/Linux: curl -fsSL https://ollama.com/install.sh | sh
# Windows: 从 https://ollama.com/download 下载

# 下载 Gemma 4 不同尺寸
ollama pull gemma4:4b        # 4B 版本（最快，适合轻量任务）
ollama pull gemma4:12b       # 12B 版本（平衡）
ollama pull gemma4:27b       # 27B 版本（更强性能）

# 也可以下载带指令微调的版本
ollama pull gemma4:4b-instruct
ollama pull gemma4:27b-instruct-fp16

# 查看已下载的模型
ollama list

步骤 2：启动 Ollama 服务

# 如果服务未运行
ollama serve

# 服务地址: http://localhost:11434

步骤 3：配置 Hermes

# ~/.hermes/config.yaml

# 基本配置
model:
  provider: "ollama"                      # Ollama 提供商
  base_url: "http://localhost:11434/v1"   # Ollama API 地址
  default: "gemma4:27b"                   # 默认使用 27B 版本

使用不同尺寸的 Gemma 4：

# 配置 4B 版本（快速响应）
model:
  provider: "ollama"
  base_url: "http://localhost:11434/v1"
  default: "gemma4:4b"

# 配置 12B 版本（平衡）
model:
  provider: "ollama"
  base_url: "http://localhost:11434/v1"
  default: "gemma4:12b"

# 配置 27B 版本（最强性能）
model:
  provider: "ollama"
  base_url: "http://localhost:11434/v1"
  default: "gemma4:27b"

步骤 4：运行时切换 Gemma 4 尺寸

# 在 Hermes 对话中切换
/model ollama:gemma4:4b      # 切换到 4B
/model ollama:gemma4:12b     # 切换到 12B
/model ollama:gemma4:27b     # 切换到 27B

设置 Gemma 4 模型别名（推荐）

为了更方便地切换不同尺寸，建议配置模型别名：

# ~/.hermes/config.yaml
model_aliases:
  # Gemma 4 系列
  gemma4-small:
    model: "gemma4:4b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  gemma4-medium:
    model: "gemma4:12b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  gemma4-large:
    model: "gemma4:27b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  # 快速切换命令
  /model gemma4-small   # 使用 4B 版本
  /model gemma4-medium  # 使用 12B 版本
  /model gemma4-large   # 使用 27B 版本

方式二：LM Studio

步骤 1：下载并安装 LM Studio

访问 https://lmstudio.ai/ 下载 LM Studio
下载 Gemma 4 的 GGUF 模型文件（从 Hugging Face 等源）

步骤 2：在 LM Studio 中加载模型

打开 LM Studio
在左侧搜索并下载 Gemma 4 模型
选择要加载的模型和量化版本（推荐 Q4_K_M 平衡性能和内存）
点击 Load 加载模型

步骤 3：启用 API Server

点击 LM Studio 左下角的 Developer 图标（或类似图标）
启用 Local Server 或 OpenAI Compatible Server
默认地址：http://localhost:1234/v1

步骤 4：配置 Hermes

# ~/.hermes/config.yaml
model:
  provider: "lmstudio"
  base_url: "http://localhost:1234/v1"
  default: "gemma-4-27b"    # LM Studio 中显示的模型名称

注意：LM Studio 中的模型名称可能与 Ollama 不同，请查看 LM Studio 界面显示的模型名称。

方式三：vLLM 部署

适用于有 GPU 的服务器部署。

步骤 1：安装 vLLM

pip install vllm

步骤 2：启动 vLLM 服务

# 单 GPU
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --port 8000 \
  --tensor-parallel-size 1

# 多 GPU（以 2 卡为例）
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --port 8000 \
  --tensor-parallel-size 2

# 或使用 Hugging Face 格式
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --hf-token YOUR_HF_TOKEN \
  --port 8000

步骤 3：配置 Hermes

# ~/.hermes/config.yaml
model:
  provider: "custom"
  base_url: "http://localhost:8000/v1"
  default: "google/gemma-4-27b-it"

方式四：第三方云端 API

Groq（免费 tier 有 Gemma）

# ~/.hermes/config.yaml
model:
  provider: "custom"
  base_url: "https://api.groq.com/openai/v1"
  default: "gemma2-27b-it"    # Groq 上的模型名

环境变量：

echo "GROQ_API_KEY=xxx" >> ~/.hermes/.env

其他第三方服务

配置格式类似：

model:
  provider: "custom"
  base_url: "https://api.your-provider.com/v1"
  default: "gemma-4-27b"

Gemma 4 配置文件完整示例

# ~/.hermes/config.yaml

# =============================================
# Gemma 4 模型配置
# =============================================

# 主配置 - 使用 Ollama 本地运行
model:
  provider: "ollama"
  base_url: "http://localhost:11434/v1"
  default: "gemma4:27b"           # 默认使用 27B

# 模型别名 - 方便切换不同尺寸
model_aliases:
  # Ollama Gemma 4 系列
  gemma4-tiny:
    model: "gemma4:4b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  gemma4-small:
    model: "gemma4:12b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  gemma4-large:
    model: "gemma4:27b"
    provider: "ollama"
    base_url: "http://localhost:11434/v1"
  
  # LM Studio（备选方案）
  gemma4-lmstudio:
    model: "gemma-4-27b"
    provider: "lmstudio"
    base_url: "http://localhost:1234/v1"
  
  # 云端 Groq（极速）
  gemma4-groq:
    model: "gemma2-27b-it"
    provider: "custom"
    base_url: "https://api.groq.com/openai/v1"

Gemma 4 使用示例

# 启动 Hermes
source ~/.hermes/hermes-agent/venv/bin/activate
hermes

# 在对话中使用：
/model gemma4-tiny     # 使用 4B（快速响应）
/model gemma4-small    # 使用 12B（平衡）
/model gemma4-large    # 使用 27B（最强）
/model gemma4-groq    # 使用 Groq 云端（极速，需要网络）

Gemma 4 各尺寸规格对比

版本	参数量	内存需求（FP16）	内存需求（Q4）	推荐用途
4B	4B	~8GB	~3GB	快速响应、轻量任务
12B	12B	~24GB	~8GB	平衡性能与资源
27B	27B	~54GB	~18GB	最强性能、复杂任务

硬件建议：

4B：消费级 GPU（如 RTX 3060）或 Mac M1+
12B：中等 GPU（如 RTX 3090）或 Mac M2+
27B：高端 GPU（如 RTX 4090 x2）或 Mac M3 Max

常见问题

Q: Ollama 显示模型找不到？

# 确认模型已下载
ollama list

# 确认模型名称正确（区分大小写）
ollama show gemma4:27b

Q: 运行时内存不足？

# 使用更小的量化版本
ollama pull gemma4:27b-q4_k_m

# 或使用更小的模型
ollama pull gemma4:12b
ollama pull gemma4:4b

Q: 响应速度慢？

# 使用更小的模型
/model gemma4:4b

# 或在 Ollama 中调整 num_ctx（上下文窗口大小）
# 编辑 ~/.ollama/models/manifests/ 下的配置

LM Studio 模型

LM Studio 提供本地模型服务，带有 OpenAI 兼容 API。

下载 LM Studio：https://lmstudio.ai/
下载并加载模型
启用 API Server（点击 LM Studio 左下角图标）

配置 Hermes：

model:
  provider: "lmstudio"
  base_url: "http://localhost:1234/v1"
  default: "qwen2.5-14b"

DeepSeek 模型

# 方式 1：OpenRouter
model:
  provider: "openrouter"
  default: "deepseek/deepseek-chat"

# 方式 2：直接使用 DeepSeek API
model:
  provider: "deepseek"
  # 需要设置 DEEPSEEK_API_KEY

Qwen 模型

# 方式 1：OpenRouter
model:
  provider: "openrouter"
  default: "qwen/qwen3.5-plus-02-15"

# 方式 2：Alibaba DashScope
model:
  provider: "alibaba"
  default: "qwen3.5-plus"

配置文件说明

config.yaml

主配置文件位于 ~/.hermes/config.yaml：

# =============================================
# 模型配置
# =============================================
model:
  # 默认模型
  default: "anthropic/claude-sonnet-4.5"
  
  # 提供商：auto, openrouter, nous, gemini, custom 等
  provider: "auto"
  
  # API 地址（custom 提供商需要）
  base_url: "https://openrouter.ai/api/v1"
  
  # API Key（可选，也可放在 .env）
  # api_key: "sk-xxx"

# =============================================
# 智能模型路由（可选）
# =============================================
smart_model_routing:
  enabled: true
  max_simple_chars: 160
  cheap_model:
    provider: openrouter
    model: google/gemini-3-flash-preview

# =============================================
# 模型别名（简短命令）
# =============================================
model_aliases:
  opus:
    model: claude-opus-4-6
    provider: anthropic
  my-gemma:
    model: gemma-4-31b-it
    provider: custom
    base_url: "https://my-gemma-api.com/v1"

# =============================================
# 终端配置
# =============================================
terminal:
  backend: "local"    # local, docker, ssh, modal, singularity
  cwd: "."
  timeout: 180

# =============================================
# 工具集配置
# =============================================
platform_toolsets:
  cli: [hermes-cli]
  telegram: [hermes-telegram]

# =============================================
# Agent 行为
# =============================================
agent:
  max_turns: 60
  reasoning_effort: "medium"  # xhigh, high, medium, low, minimal, none

# =============================================
# 上下文压缩
# =============================================
compression:
  enabled: true
  threshold: 0.50
  summary_model: "google/gemini-3-flash-preview"

.env 文件

API 密钥和敏感配置，位于 ~/.hermes/.env：

# =============================================
# LLM 提供商 API Keys
# =============================================

# OpenRouter（推荐）
OPENROUTER_API_KEY=sk-or-v1-xxx

# Google AI Studio / Gemini
GOOGLE_API_KEY=xxx

# 自定义端点（如使用第三方 Gemma 服务）
CUSTOM_API_KEY=xxx

# 其他提供商...
# GLM_API_KEY=xxx
# KIMI_API_KEY=xxx
# MINIMAX_API_KEY=xxx
# HF_TOKEN=xxx

# =============================================
# 工具 API Keys
# =============================================
EXA_API_KEY=xxx              # 网页搜索
FIRECRRAWL_API_KEY=xxx       # 网页爬取
FAL_KEY=xxx                  # 图像生成

# =============================================
# 终端配置
# =============================================
TERMINAL_TIMEOUT=60

工具集配置

Hermes 提供了模块化的工具集系统：

可用工具集

工具集	功能	说明
`web`	网页搜索和内容提取	Exa, Firecrawl
`terminal`	命令执行	本地/Docker/SSH
`file`	文件操作	读写搜索
`browser`	浏览器自动化	需要 Browserbase
`vision`	图像分析	多模态模型
`image_gen`	图像生成	FLUX
`skills`	技能系统	记忆和技能
`todo`	任务规划	清单管理
`tts`	语音合成	Edge TTS
`cronjob`	定时任务	调度器

配置示例

# 只给 Telegram 启用水印工具
platform_toolsets:
  cli: [hermes-cli]                    # CLI 完整工具
  telegram: [terminal, file, web]      # Telegram 只读工具
  discord: [web, vision, skills]        # Discord 受限工具

运行时切换：

hermes chat --toolsets web,file,terminal

高级配置

智能路由

自动使用便宜模型处理简单问题：

smart_model_routing:
  enabled: true
  max_simple_chars: 160
  max_simple_words: 28
  cheap_model:
    provider: openrouter
    model: google/gemini-3-flash-preview

上下文压缩

自动压缩长对话以节省 token：

compression:
  enabled: true
  threshold: 0.50        # 50% 时触发
  target_ratio: 0.20     # 保留 20% 最近上下文
  protect_last_n: 20     # 保护最近 20 条消息
  summary_model: "google/gemini-3-flash-preview"

终端后端配置

本地执行（默认）

terminal:
  backend: "local"
  cwd: "."

Docker 容器

terminal:
  backend: "docker"
  docker_image: "nikolaik/python-nodejs:python3.11-nodejs20"
  cwd: "/workspace"

SSH 远程

terminal:
  backend: "ssh"
  ssh_host: "my-server.com"
  ssh_user: "myuser"
  cwd: "/home/myuser/project"

terminal:
  backend: "modal"
  modal_image: "nikolaik/python-nodejs:python3.11-nodejs20"

常见问题

Q: 如何切换模型？

# 运行时
/model openrouter:google/gemini-2.5-flash

# 或编辑 config.yaml
hermes config set model.default "google/gemini-2.5-flash"

Q: 如何使用本地模型（如本地 Gemma）？

# 1. 安装 Ollama 并下载模型
ollama pull gemma3

# 2. 启动服务
ollama serve

# 3. 配置 Hermes
# ~/.hermes/config.yaml
model:
  provider: "custom"
  base_url: "http://localhost:11434/v1"
  default: "gemma3"

Q: 自定义 API 端点如何配置？

# ~/.hermes/config.yaml
model:
  provider: "custom"
  base_url: "https://your-custom-api.com/v1"
  # api_key: "xxx"  # 如需要

Q: 如何设置模型别名？

# ~/.hermes/config.yaml
model_aliases:
  fast:
    model: google/gemini-3-flash-preview
    provider: openrouter
  local:
    model: llama3.2
    provider: custom
    base_url: "http://localhost:11434/v1"

使用时：

/model fast    # 使用 Gemini Flash
/model local   # 使用本地 Llama

Q: API Key 放在哪里？

放入 ~/.hermes/.env：

OPENROUTER_API_KEY=sk-or-v1-xxx
GOOGLE_API_KEY=xxx
CUSTOM_API_KEY=xxx

Q: 如何查看当前配置？

hermes config
# 或
cat ~/.hermes/config.yaml

附录：完整配置模板

# ~/.hermes/config.yaml

model:
  default: "anthropic/claude-sonnet-4.5"
  provider: "auto"
  base_url: "https://openrouter.ai/api/v1"

terminal:
  backend: "local"
  cwd: "."
  timeout: 180

agent:
  max_turns: 60
  reasoning_effort: "medium"

compression:
  enabled: true
  threshold: 0.50
  summary_model: "google/gemini-3-flash-preview"

platform_toolsets:
  cli: [hermes-cli]
  telegram: [hermes-telegram]
  discord: [hermes-telegram]

display:
  tool_progress: all
  streaming: true
  skin: default

更多信息请访问：https://hermes-agent.nousresearch.com/docs/

GPU 运行 Ollama 使用说明

环境信息

GPU: NVIDIA GeForce RTX 4090 (24GB VRAM)
CUDA: 13.0
Ollama 版本: 0.20.4

安装步骤

1. 下载 GPU 版本 Ollama

从 Ollama 官网下载 Linux AMD64 GPU 版本：

curl -fsSL https://ollama.com/install.sh | sh

或直接下载压缩包：

wget https://ollama.com/download/ollama-linux-amd64.tar.zst

2. 解压安装

# 解压
tar -I zstd -xf ollama-linux-amd64.tar.zst

# 复制到系统路径
cp -r bin/* /usr/local/bin/
cp -r lib/* /usr/local/lib/

3. 验证 GPU 支持

nvidia-smi

输出应显示 NVIDIA GPU 信息。

启动与运行

1. 启动 Ollama 服务

# 后台启动
export OLLAMA_HOST=0.0.0.0:11434
nohup /usr/local/bin/ollama serve > /tmp/ollama.log 2>&1 &

# 或前台启动
/usr/local/bin/ollama serve

2. 查看可用模型

/usr/local/bin/ollama list

3. 运行模型（使用 GPU）

# 交互式运行
/usr/local/bin/ollama run gemma4:e2b

# 或使用管道
echo "Hello" | /usr/local/bin/ollama run gemma4:e2b

验证 GPU 使用

方法 1: 查看 nvidia-smi

nvidia-smi

输出示例：

+-----------------------------------------------------------------------------------------+
| GPU  Name                 Memory-Usage | GPU-Util | Compute M.                        |
+-----------------------------------------------------------------------------------------+
|   0  NVIDIA GeForce RTX 4090    7809MiB / 24564MiB |      0%      Default            |
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|    0   N/A  N/A            1330      C   /usr/local/bin/ollama                  7800MiB |
+-----------------------------------------------------------------------------------------+

方法 2: 查看 Ollama 日志

tail -f /tmp/ollama.log

关键日志信息：

time=... level=INFO source=types.go:42 msg="inference compute" ... library=CUDA compute=8.9 name=CUDA0 description="NVIDIA GeForce RTX 4090" ...
load_backend: loaded CUDA backend from /usr/local/lib/ollama/cuda_v13/libggml-cuda.so
GPULayers:36[ID:GPU-... Layers:36(0..35)]

常用命令

# 启动服务
ollama serve

# 查看模型列表
ollama list

# 运行模型
ollama run <model-name>

# 查看模型信息
ollama show <model-name>

# 停止服务
pkill -f ollama

注意事项

确保已安装 NVIDIA GPU 驱动和 CUDA
模型文件通常较大（7-20GB），确保磁盘空间充足
如果模型加载失败，检查 GPU 内存是否足够
可以通过设置环境变量调整 GPU 使用：OLLAMA_GPU_OVERHEAD=0

@科哥AIGC

认证作者

镜像信息

已使用0 次

运行时长

0 H

支持自启动

镜像大小

150GB

最后更新时间

2026-04-09

支持卡型

3090RTX40系RTX50系48G RTX40系3080Ti2080Ti2080A800H20P40V100SA100

+12

框架版本

PyTorch-2.8

CUDA版本

12.8

应用

JupyterLab: 8888

版本

v1.2

2026-04-09

PyTorch:2.8 | CUDA:12.8 | 大小:150.00GB

v1.1

2026-04-09

PyTorch:2.8 | CUDA:12.8 | 大小:150.00GB

隶属于优刻得科技股份有限公司

股票代码：688158

优刻得是中立、安全的云计算服务平台

友情链接 :

优刻得

产品

GPU实例 GPU镜像社区模型API服务

快速入口

文档中心 API文档用户协议

镜像合集

AI4S 数字人 TTS语音 Wan2.2 视频超分

谷歌最新本地模型gemma4最强智能助理hermes agent一个本地免token的智能助理模型全部离线

支持webUI打开进行使用 更加简易

cd /root && bash run.sh

webUI运行界面截图：

Hermes Agent 使用手册

目录

安装

自动安装（推荐）

手动安装

快速开始

基本命令

斜杠命令（运行时使用）

模型配置

支持的提供商

配置默认模型

方法 1：使用命令

方法 2：编辑配置文件

使用 OpenRouter

使用 Nous Portal

使用 Google AI Studio (Gemini)

使用自定义端点

基本配置

自定义模型示例

Gemma 模型

方式 1：OpenRouter（推荐）

方式 2：Google AI Studio

方式 3：自定义 API 端点

Ollama 本地模型

Ollama Cloud（云端）

Gemma 4 本地模型配置（详细指南）

方式一：Ollama（推荐）

步骤 1：下载 Gemma 4 模型

步骤 2：启动 Ollama 服务

步骤 3：配置 Hermes

步骤 4：运行时切换 Gemma 4 尺寸

设置 Gemma 4 模型别名（推荐）

方式二：LM Studio

步骤 1：下载并安装 LM Studio

步骤 2：在 LM Studio 中加载模型

步骤 3：启用 API Server

步骤 4：配置 Hermes

方式三：vLLM 部署

步骤 1：安装 vLLM

步骤 2：启动 vLLM 服务

步骤 3：配置 Hermes

方式四：第三方云端 API

Groq（免费 tier 有 Gemma）

其他第三方服务

Gemma 4 配置文件完整示例

Gemma 4 使用示例

Gemma 4 各尺寸规格对比

常见问题

LM Studio 模型

DeepSeek 模型

Qwen 模型

配置文件说明

config.yaml

.env 文件

工具集配置

可用工具集

配置示例

高级配置

智能路由

上下文压缩

终端后端配置

本地执行（默认）

Docker 容器

SSH 远程

Modal 云端

常见问题

Q: 如何切换模型？

Q: 如何使用本地模型（如本地 Gemma）？

Q: 自定义 API 端点如何配置？

Q: 如何设置模型别名？

Q: API Key 放在哪里？

Q: 如何查看当前配置？

附录：完整配置模板

GPU 运行 Ollama 使用说明

环境信息

安装步骤

支持webUI打开进行使用更加简易