原始项目仓库: https://github.com/theroyallab/tabbyAPI
一个基于 Exllamav2 的高性能大语言模型 API 和加载平台。
预装模型: gemma-2-9b-it-exl2-4.5bpw
OpenAI 兼容 API: 提供与 OpenAI 兼容的 API,包含 Chat 和 Completions 端点,支持工具调用。
灵活模板引擎: 使用灵活的 Jinja2 模板引擎进行聊天补全,符合 HuggingFace 标准。
异步并发推理: 利用 asyncio 实现并发推理。
高级控制: 支持 JSON schema + Regex + EBNF,提供更精细的生成控制。
AI Horde 支持: 集成 AI Horde。
连续批处理: 使用分页注意力实现连续批处理引擎。
快速无分类器引导: 支持快速无分类器引导。
Exl2
GPTQ
FP16(使用ExllamaV2加载)
https://github.com/theroyallab/tabbyAPI/wiki/
cd home/tabbyAPI/
python main.py
https://www.bilibili.com/video/BV1U2XrYTEhx/?
openai标准API接口地址:服务器外网ip:5000