镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
LLM
TabbyAPI
TabbyAPI
0/小时
v1.0

TabbyAPI

原始项目仓库: https://github.com/theroyallab/tabbyAPI

一个基于 Exllamav2 的高性能大语言模型 API 和加载平台。

预装模型: gemma-2-9b-it-exl2-4.5bpw

特点

OpenAI 兼容 API: 提供与 OpenAI 兼容的 API,包含 Chat 和 Completions 端点,支持工具调用。

灵活模板引擎: 使用灵活的 Jinja2 模板引擎进行聊天补全,符合 HuggingFace 标准。

异步并发推理: 利用 asyncio 实现并发推理。

高级控制: 支持 JSON schema + Regex + EBNF,提供更精细的生成控制。

AI Horde 支持: 集成 AI Horde。

连续批处理: 使用分页注意力实现连续批处理引擎。

快速无分类器引导: 支持快速无分类器引导。

支持模型类型

Exl2

GPTQ

FP16(使用ExllamaV2加载)

官方wiki

https://github.com/theroyallab/tabbyAPI/wiki/

使用方法

待实例初始化完成后,在控制台-应用中打开“JupyterLab”

image.png

依次输入如下指令

cd home/tabbyAPI/
python main.py 

程序启动后你应该会看见如下内容

image.png

默认自动加载自带的gemma-2-9b模型,apikey为自动随机生成

如果需要切换模型,需要首先将可用模型放置到tabbyapi目录下models文件夹内

image.png

放置完成后,进入tabbyapi目录找到config.yml文件

image.png

进入后调整模型加载参数,并加载。

具体流程请参考wiki以及config内自带的说明

可参考的视频教程:

https://www.bilibili.com/video/BV1U2XrYTEhx/?

API调用

openai标准API接口地址:服务器外网ip:5000

镜像信息
@Smzh
已使用
1
镜像大小70GB
最近编辑2025-06-09
支持卡型
RTX40系309048G RTX40系
+3
框架版本
PyTorch-2.6.0
CUDA版本
12.4
应用
JupyterLab: 8888
自定义开放端口
5000
+1
版本
v1.0
2025-06-25
PyTorch:2.6.0 | CUDA:12.4 | 大小:70.00GB