1一、运行ollama也可以手动执行:



以上指令都是在【jupyterlab】,然后打开【终端】输入回车执行!
打开webUI可以切换模型:
/model gemma4:e2b # 切换到 e2b 版本(7.2GB,轻量) /model gemma4:26b # 切换到 26B 版本(19GB,当前默认) /model gemma4:31b # 切换到 31B 版本(19GB)
以上指令都是在【jupyterlab】,然后打开【终端】输入回车执行!
进入hermes里面切换模型: 切换 Ollama 本地模型示例
/model gemma4:e2b # 切换到 e2b 版本(7.2GB,轻量) /model gemma4:26b # 切换到 26B 版本(19GB,当前默认) /model gemma4:31b # 切换到 31B 版本(19GB)
Hermes Agent 是由 Nous Research 开发的开源 AI Agent,支持多种模型提供商和自定义配置。
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
如果自动安装脚本中的 curl 有问题,可以手动下载:
# 1. 下载安装脚本
wget https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh -O install.sh
# 2. 安装 uv(Python 包管理器)
wget https://astral.sh/uv/install.sh -O uv-install.sh
bash uv-install.sh
# 3. 克隆仓库
git clone https://github.com/NousResearch/hermes-agent.git ~/.hermes/hermes-agent
# 4. 创建虚拟环境并安装
cd ~/.hermes/hermes-agent
uv venv venv --python 3.11
source venv/bin/activate
uv pip install -e .
# 5. 添加到 PATH
export PATH="~/.local/bin:$PATH"
激活虚拟环境并启动
source ~/.hermes/hermes-agent/venv/bin/activate
hermes
首次运行会自动提示配置
或使用交互式设置向导
hermes setup
hermes # 启动交互式 CLI
hermes model # 选择/切换模型
hermes tools # 配置工具集
hermes config set # 设置配置项
hermes config edit # 编辑配置文件
hermes gateway # 启动消息网关
hermes setup # 运行完整设置向导
hermes update # 更新到最新版本
hermes doctor # 诊断问题
| 命令 | 功能 |
|---|---|
/new 或 /reset | 开始新对话 |
/model <模型> | 切换模型 |
/retry | 重试上一轮 |
/undo | 撤销上一轮 |
/compress | 压缩上下文 |
/usage | 查看用量统计 |
/skills | 浏览技能列表 |
/verbose | 切换详细输出 |
/help | 显示帮助 |
| 提供商 | 说明 | API Key 环境变量 |
|---|---|---|
openrouter | OpenRouter(200+ 模型) | OPENROUTER_API_KEY |
nous | Nous Portal OAuth | 通过 hermes login |
gemini | Google AI Studio | GOOGLE_API_KEY |
zai | Z.AI / ZhipuAI GLM | GLM_API_KEY |
kimi-coding | Kimi / Moonshot | KIMI_API_KEY |
minimax | MiniMax | MINIMAX_API_KEY |
anthropic | Anthropic Claude | ANTHROPIC_API_KEY |
openai | OpenAI | OPENAI_API_KEY |
deepseek | DeepSeek | DEEPSEEK_API_KEY |
huggingface | Hugging Face | HF_TOKEN |
copilot | GitHub Copilot | GITHUB_TOKEN |
custom | 自定义 OpenAI 兼容端点 | 自定义 |
# 查看可用模型
hermes model
# 运行时切换模型
/model anthropic/claude-sonnet-4.5
# 使用特定提供商
/model openrouter:google/gemini-2.5-flash
# ~/.hermes/config.yaml
model:
default: "anthropic/claude-sonnet-4.5"
provider: "openrouter" # 或 "auto" 自动检测
OpenRouter 是一个聚合平台,支持 200+ 模型,通过单一 API 访问。
获取 API Key:访问 https://openrouter.ai/keys
配置:
# 方式 1:环境变量
echo "OPENROUTER_API_KEY=sk-xxx" >> ~/.hermes/.env
# 方式 2:config.yaml
# ~/.hermes/config.yaml
model:
default: "anthropic/claude-opus-4.6"
provider: "openrouter"
base_url: "https://openrouter.ai/api/v1"
常用模型:
model:
default: "anthropic/claude-opus-4.6" # 推荐
default: "google/gemini-3-pro-preview" # Gemini Pro
default: "google/gemini-3-flash-preview" # Gemini Flash(快速/便宜)
default: "qwen/qwen3.5-plus-02-15" # Qwen
default: "deepseek/deepseek-chat" # DeepSeek
OAuth 登录:
hermes login
# 选择 Nous Portal 提供商
配置:
model:
provider: "nous"
# Nous 会自动使用登录凭证
获取 API Key:https://aistudio.google.com/app/apikey
配置:
echo "GOOGLE_API_KEY=your-key" >> ~/.hermes/.env
config.yaml:
model:
provider: "gemini"
default: "gemini-3-flash-preview"
可用的 Gemini 模型:
model:
default: "gemini-3.1-pro-preview" # Gemini 3.1 Pro
default: "gemini-3-flash-preview" # Gemini 3 Flash
default: "gemini-2.5-pro" # Gemini 2.5 Pro
default: "gemini-2.5-flash" # Gemini 2.5 Flash
default: "gemma-4-31b-it" # Gemma 4 (31B)
default: "gemma-4-26b-it" # Gemma 4 (26B)
这是使用 Gemma 等自定义模型的关键部分!
# ~/.hermes/config.yaml
model:
provider: "custom" # 关键:设为 custom
base_url: "https://your-api-endpoint.com/v1" # 你的 API 地址
# api_key: "your-key" # 如需要认证
Gemma 是 Google 的开源模型,可以通过多种方式使用:
model:
provider: "openrouter"
default: "google/gemma-4-31b-it"
model:
provider: "gemini"
default: "gemma-4-31b-it"
如果使用第三方托管的 Gemma:
model:
provider: "custom"
base_url: "https://api.example.com/v1"
default: "gemma-4-31b-it"
环境变量:
echo "CUSTOM_API_KEY=your-gemma-api-key" >> ~/.hermes/.env
Ollama 允许在本地运行开源模型(如 Llama, Qwen, Mistral, Gemma 等)。
安装 Ollama:https://ollama.com/download
下载模型:
ollama pull llama3.2
ollama pull qwen2.5
ollama pull gemma3
启动 Ollama 服务:
ollama serve # 默认 http://localhost:11434
配置 Hermes:
# ~/.hermes/config.yaml
model:
provider: "ollama" # 或 "custom"
base_url: "http://localhost:11434/v1"
default: "llama3.2"
或使用别名(更简洁):
model:
provider: "lmstudio" # lmstudio、ollama、vllm 都映射到 custom
base_url: "http://localhost:11434/v1"
default: "llama3.2"
运行时切换:
/model ollama:llama3.2
/model custom:mistral
model:
provider: "custom"
base_url: "https://ollama.com/v1"
default: "qwen2.5:14b"
Gemma 4 是 Google 最新开源模型,提供 4B、26B、31B 三种规格。本节详细说明如何配置到 Hermes Agent 使用。
# 安装/更新 Ollama(如果还没安装)
# macOS/Linux: curl -fsSL https://ollama.com/install.sh | sh
# Windows: 从 https://ollama.com/download 下载
# 下载 Gemma 4 不同尺寸
ollama pull gemma4:4b # 4B 版本(最快,适合轻量任务)
ollama pull gemma4:12b # 12B 版本(平衡)
ollama pull gemma4:27b # 27B 版本(更强性能)
# 也可以下载带指令微调的版本
ollama pull gemma4:4b-instruct
ollama pull gemma4:27b-instruct-fp16
# 查看已下载的模型
ollama list
# 如果服务未运行
ollama serve
# 服务地址: http://localhost:11434
# ~/.hermes/config.yaml
# 基本配置
model:
provider: "ollama" # Ollama 提供商
base_url: "http://localhost:11434/v1" # Ollama API 地址
default: "gemma4:27b" # 默认使用 27B 版本
使用不同尺寸的 Gemma 4:
# 配置 4B 版本(快速响应)
model:
provider: "ollama"
base_url: "http://localhost:11434/v1"
default: "gemma4:4b"
# 配置 12B 版本(平衡)
model:
provider: "ollama"
base_url: "http://localhost:11434/v1"
default: "gemma4:12b"
# 配置 27B 版本(最强性能)
model:
provider: "ollama"
base_url: "http://localhost:11434/v1"
default: "gemma4:27b"
# 在 Hermes 对话中切换
/model ollama:gemma4:4b # 切换到 4B
/model ollama:gemma4:12b # 切换到 12B
/model ollama:gemma4:27b # 切换到 27B
为了更方便地切换不同尺寸,建议配置模型别名:
# ~/.hermes/config.yaml
model_aliases:
# Gemma 4 系列
gemma4-small:
model: "gemma4:4b"
provider: "ollama"
base_url: "http://localhost:11434/v1"
gemma4-medium:
model: "gemma4:12b"
provider: "ollama"
base_url: "http://localhost:11434/v1"
gemma4-large:
model: "gemma4:27b"
provider: "ollama"
base_url: "http://localhost:11434/v1"
# 快速切换命令
/model gemma4-small # 使用 4B 版本
/model gemma4-medium # 使用 12B 版本
/model gemma4-large # 使用 27B 版本
http://localhost:1234/v1# ~/.hermes/config.yaml
model:
provider: "lmstudio"
base_url: "http://localhost:1234/v1"
default: "gemma-4-27b" # LM Studio 中显示的模型名称
注意:LM Studio 中的模型名称可能与 Ollama 不同,请查看 LM Studio 界面显示的模型名称。
适用于有 GPU 的服务器部署。
pip install vllm
# 单 GPU
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--port 8000 \
--tensor-parallel-size 1
# 多 GPU(以 2 卡为例)
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--port 8000 \
--tensor-parallel-size 2
# 或使用 Hugging Face 格式
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--hf-token YOUR_HF_TOKEN \
--port 8000
# ~/.hermes/config.yaml
model:
provider: "custom"
base_url: "http://localhost:8000/v1"
default: "google/gemma-4-27b-it"
# ~/.hermes/config.yaml
model:
provider: "custom"
base_url: "https://api.groq.com/openai/v1"
default: "gemma2-27b-it" # Groq 上的模型名
环境变量:
echo "GROQ_API_KEY=xxx" >> ~/.hermes/.env
配置格式类似:
model:
provider: "custom"
base_url: "https://api.your-provider.com/v1"
default: "gemma-4-27b"
# ~/.hermes/config.yaml
# =============================================
# Gemma 4 模型配置
# =============================================
# 主配置 - 使用 Ollama 本地运行
model:
provider: "ollama"
base_url: "http://localhost:11434/v1"
default: "gemma4:27b" # 默认使用 27B
# 模型别名 - 方便切换不同尺寸
model_aliases:
# Ollama Gemma 4 系列
gemma4-tiny:
model: "gemma4:4b"
provider: "ollama"
base_url: "http://localhost:11434/v1"
gemma4-small:
model: "gemma4:12b"
provider: "ollama"
base_url: "http://localhost:11434/v1"
gemma4-large:
model: "gemma4:27b"
provider: "ollama"
base_url: "http://localhost:11434/v1"
# LM Studio(备选方案)
gemma4-lmstudio:
model: "gemma-4-27b"
provider: "lmstudio"
base_url: "http://localhost:1234/v1"
# 云端 Groq(极速)
gemma4-groq:
model: "gemma2-27b-it"
provider: "custom"
base_url: "https://api.groq.com/openai/v1"
# 启动 Hermes
source ~/.hermes/hermes-agent/venv/bin/activate
hermes
# 在对话中使用:
/model gemma4-tiny # 使用 4B(快速响应)
/model gemma4-small # 使用 12B(平衡)
/model gemma4-large # 使用 27B(最强)
/model gemma4-groq # 使用 Groq 云端(极速,需要网络)
| 版本 | 参数量 | 内存需求(FP16) | 内存需求(Q4) | 推荐用途 |
|---|---|---|---|---|
| 4B | 4B | ~8GB | ~3GB | 快速响应、轻量任务 |
| 12B | 12B | ~24GB | ~8GB | 平衡性能与资源 |
| 27B | 27B | ~54GB | ~18GB | 最强性能、复杂任务 |
硬件建议:
Q: Ollama 显示模型找不到?
# 确认模型已下载
ollama list
# 确认模型名称正确(区分大小写)
ollama show gemma4:27b
Q: 运行时内存不足?
# 使用更小的量化版本
ollama pull gemma4:27b-q4_k_m
# 或使用更小的模型
ollama pull gemma4:12b
ollama pull gemma4:4b
Q: 响应速度慢?
# 使用更小的模型
/model gemma4:4b
# 或在 Ollama 中调整 num_ctx(上下文窗口大小)
# 编辑 ~/.ollama/models/manifests/ 下的配置
LM Studio 提供本地模型服务,带有 OpenAI 兼容 API。
下载 LM Studio:https://lmstudio.ai/
下载并加载模型
启用 API Server(点击 LM Studio 左下角图标)
配置 Hermes:
model:
provider: "lmstudio"
base_url: "http://localhost:1234/v1"
default: "qwen2.5-14b"
# 方式 1:OpenRouter
model:
provider: "openrouter"
default: "deepseek/deepseek-chat"
# 方式 2:直接使用 DeepSeek API
model:
provider: "deepseek"
# 需要设置 DEEPSEEK_API_KEY
# 方式 1:OpenRouter
model:
provider: "openrouter"
default: "qwen/qwen3.5-plus-02-15"
# 方式 2:Alibaba DashScope
model:
provider: "alibaba"
default: "qwen3.5-plus"
主配置文件位于 ~/.hermes/config.yaml:
# =============================================
# 模型配置
# =============================================
model:
# 默认模型
default: "anthropic/claude-sonnet-4.5"
# 提供商:auto, openrouter, nous, gemini, custom 等
provider: "auto"
# API 地址(custom 提供商需要)
base_url: "https://openrouter.ai/api/v1"
# API Key(可选,也可放在 .env)
# api_key: "sk-xxx"
# =============================================
# 智能模型路由(可选)
# =============================================
smart_model_routing:
enabled: true
max_simple_chars: 160
cheap_model:
provider: openrouter
model: google/gemini-3-flash-preview
# =============================================
# 模型别名(简短命令)
# =============================================
model_aliases:
opus:
model: claude-opus-4-6
provider: anthropic
my-gemma:
model: gemma-4-31b-it
provider: custom
base_url: "https://my-gemma-api.com/v1"
# =============================================
# 终端配置
# =============================================
terminal:
backend: "local" # local, docker, ssh, modal, singularity
cwd: "."
timeout: 180
# =============================================
# 工具集配置
# =============================================
platform_toolsets:
cli: [hermes-cli]
telegram: [hermes-telegram]
# =============================================
# Agent 行为
# =============================================
agent:
max_turns: 60
reasoning_effort: "medium" # xhigh, high, medium, low, minimal, none
# =============================================
# 上下文压缩
# =============================================
compression:
enabled: true
threshold: 0.50
summary_model: "google/gemini-3-flash-preview"
API 密钥和敏感配置,位于 ~/.hermes/.env:
# =============================================
# LLM 提供商 API Keys
# =============================================
# OpenRouter(推荐)
OPENROUTER_API_KEY=sk-or-v1-xxx
# Google AI Studio / Gemini
GOOGLE_API_KEY=xxx
# 自定义端点(如使用第三方 Gemma 服务)
CUSTOM_API_KEY=xxx
# 其他提供商...
# GLM_API_KEY=xxx
# KIMI_API_KEY=xxx
# MINIMAX_API_KEY=xxx
# HF_TOKEN=xxx
# =============================================
# 工具 API Keys
# =============================================
EXA_API_KEY=xxx # 网页搜索
FIRECRRAWL_API_KEY=xxx # 网页爬取
FAL_KEY=xxx # 图像生成
# =============================================
# 终端配置
# =============================================
TERMINAL_TIMEOUT=60
Hermes 提供了模块化的工具集系统:
| 工具集 | 功能 | 说明 |
|---|---|---|
web | 网页搜索和内容提取 | Exa, Firecrawl |
terminal | 命令执行 | 本地/Docker/SSH |
file | 文件操作 | 读写搜索 |
browser | 浏览器自动化 | 需要 Browserbase |
vision | 图像分析 | 多模态模型 |
image_gen | 图像生成 | FLUX |
skills | 技能系统 | 记忆和技能 |
todo | 任务规划 | 清单管理 |
tts | 语音合成 | Edge TTS |
cronjob | 定时任务 | 调度器 |
# 只给 Telegram 启用水印工具
platform_toolsets:
cli: [hermes-cli] # CLI 完整工具
telegram: [terminal, file, web] # Telegram 只读工具
discord: [web, vision, skills] # Discord 受限工具
运行时切换:
hermes chat --toolsets web,file,terminal
自动使用便宜模型处理简单问题:
smart_model_routing:
enabled: true
max_simple_chars: 160
max_simple_words: 28
cheap_model:
provider: openrouter
model: google/gemini-3-flash-preview
自动压缩长对话以节省 token:
compression:
enabled: true
threshold: 0.50 # 50% 时触发
target_ratio: 0.20 # 保留 20% 最近上下文
protect_last_n: 20 # 保护最近 20 条消息
summary_model: "google/gemini-3-flash-preview"
terminal:
backend: "local"
cwd: "."
terminal:
backend: "docker"
docker_image: "nikolaik/python-nodejs:python3.11-nodejs20"
cwd: "/workspace"
terminal:
backend: "ssh"
ssh_host: "my-server.com"
ssh_user: "myuser"
cwd: "/home/myuser/project"
terminal:
backend: "modal"
modal_image: "nikolaik/python-nodejs:python3.11-nodejs20"
# 运行时
/model openrouter:google/gemini-2.5-flash
# 或编辑 config.yaml
hermes config set model.default "google/gemini-2.5-flash"
# 1. 安装 Ollama 并下载模型
ollama pull gemma3
# 2. 启动服务
ollama serve
# 3. 配置 Hermes
# ~/.hermes/config.yaml
model:
provider: "custom"
base_url: "http://localhost:11434/v1"
default: "gemma3"
# ~/.hermes/config.yaml
model:
provider: "custom"
base_url: "https://your-custom-api.com/v1"
# api_key: "xxx" # 如需要
# ~/.hermes/config.yaml
model_aliases:
fast:
model: google/gemini-3-flash-preview
provider: openrouter
local:
model: llama3.2
provider: custom
base_url: "http://localhost:11434/v1"
使用时:
/model fast # 使用 Gemini Flash
/model local # 使用本地 Llama
放入 ~/.hermes/.env:
OPENROUTER_API_KEY=sk-or-v1-xxx
GOOGLE_API_KEY=xxx
CUSTOM_API_KEY=xxx
hermes config
# 或
cat ~/.hermes/config.yaml
# ~/.hermes/config.yaml
model:
default: "anthropic/claude-sonnet-4.5"
provider: "auto"
base_url: "https://openrouter.ai/api/v1"
terminal:
backend: "local"
cwd: "."
timeout: 180
agent:
max_turns: 60
reasoning_effort: "medium"
compression:
enabled: true
threshold: 0.50
summary_model: "google/gemini-3-flash-preview"
platform_toolsets:
cli: [hermes-cli]
telegram: [hermes-telegram]
discord: [hermes-telegram]
display:
tool_progress: all
streaming: true
skin: default
从 Ollama 官网下载 Linux AMD64 GPU 版本:
curl -fsSL https://ollama.com/install.sh | sh
或直接下载压缩包:
wget https://ollama.com/download/ollama-linux-amd64.tar.zst
# 解压
tar -I zstd -xf ollama-linux-amd64.tar.zst
# 复制到系统路径
cp -r bin/* /usr/local/bin/
cp -r lib/* /usr/local/lib/
nvidia-smi
输出应显示 NVIDIA GPU 信息。
# 后台启动
export OLLAMA_HOST=0.0.0.0:11434
nohup /usr/local/bin/ollama serve > /tmp/ollama.log 2>&1 &
# 或前台启动
/usr/local/bin/ollama serve
/usr/local/bin/ollama list
# 交互式运行
/usr/local/bin/ollama run gemma4:e2b
# 或使用管道
echo "Hello" | /usr/local/bin/ollama run gemma4:e2b
nvidia-smi
输出示例:
+-----------------------------------------------------------------------------------------+
| GPU Name Memory-Usage | GPU-Util | Compute M. |
+-----------------------------------------------------------------------------------------+
| 0 NVIDIA GeForce RTX 4090 7809MiB / 24564MiB | 0% Default |
+-----------------------------------------------------------------------------------------+
| Processes: |
| 0 N/A N/A 1330 C /usr/local/bin/ollama 7800MiB |
+-----------------------------------------------------------------------------------------+
tail -f /tmp/ollama.log
关键日志信息:
time=... level=INFO source=types.go:42 msg="inference compute" ... library=CUDA compute=8.9 name=CUDA0 description="NVIDIA GeForce RTX 4090" ...
load_backend: loaded CUDA backend from /usr/local/lib/ollama/cuda_v13/libggml-cuda.so
GPULayers:36[ID:GPU-... Layers:36(0..35)]
# 启动服务
ollama serve
# 查看模型列表
ollama list
# 运行模型
ollama run <model-name>
# 查看模型信息
ollama show <model-name>
# 停止服务
pkill -f ollama
OLLAMA_GPU_OVERHEAD=0
认证作者

支持自启动