1本镜像基于智普开源GLM-4.7-Flash文本大模型,采用GGUF格式提供高效的本地推理服务,响应速度突出。内置便捷的WebUI界面,支持编程辅助、智能问答与文本生成等任务,适合开发者、研究人员及需要快速文本处理的用户进行高效部署与使用。






欢迎使用 GLM-4.7-Flash!这是一个强大的 AI 对话助手,支持中英文对话、代码生成、问题解答等功能。
服务提供两种使用方式:
访问地址:
特点: 简单易用,像使用 ChatGPT 一样聊天
访问地址:
特点: 支持编程调用,可集成到其他应用
访问地址:
特点:
使用方法:
GLM-4.7-Flash-Q4_K_M.gguf)示例对话:
你: 你好,请介绍一下自己
AI: 你好!我是 GLM-4.7-Flash,一个由智谱 AI 开发的大型语言模型...
你: 帮我写一个 Python 函数计算斐波那契数列
AI: 好的,这是一个计算斐波那契数列的 Python 函数:
def fibonacci(n):
if n <= 1:
return n
return fibonacci(n-1) + fibonacci(n-2)
点击"高级参数"展开,可以调整:
| 参数 | 说明 | 推荐值 | 效果 |
|---|---|---|---|
| Temperature | 创造性 | 0.2 | 越低越严谨,越高越有创意 |
| Top P | 采样范围 | 0.95 | 控制回复的多样性 |
| Top K | 候选词数量 | 50 | 影响词汇选择 |
| Max Tokens | 最大回复长度 | 2048 | 回复的最大字数 |
使用建议:
点击"清空对话"按钮可以开始新的对话,之前的历史会被清除。
打开终端,运行:
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-4.7-flash",
"messages": [
{"role": "user", "content": "你好"}
]
}'
import requests
# 发送请求
response = requests.post(
"http://localhost:8000/v1/chat/completions",
json={
"model": "glm-4.7-flash",
"messages": [
{"role": "user", "content": "写一个快速排序算法"}
],
"temperature": 0.2,
"max_tokens": 2048
}
)
# 获取回复
result = response.json()
print(result["choices"][0]["message"]["content"])
from openai import OpenAI
# 配置客户端
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="dummy" # 不需要真实 key
)
# 发送消息
response = client.chat.completions.create(
model="glm-4.7-flash",
messages=[
{"role": "user", "content": "解释一下 Python 装饰器"}
]
)
print(response.choices[0].message.content)
import requests
# 对话历史
messages = [
{"role": "user", "content": "你好"},
{"role": "assistant", "content": "你好!有什么可以帮你的吗?"},
{"role": "user", "content": "帮我写一个 Python 函数"}
]
response = requests.post(
"http://localhost:8000/v1/chat/completions",
json={"model": "glm-4.7-flash", "messages": messages}
)
print(response.json()["choices"][0]["message"]["content"])
API 服务支持执行代码和命令,适合编程助手场景。
curl -X POST "http://localhost:8000/v1/tools/execute?tool_name=execute_bash" \
-H "Content-Type: application/json" \
-d '{
"command": "ls -la",
"timeout": 10
}'
返回结果:
{
"success": true,
"result": {
"stdout": "total 48\ndrwxr-xr-x ...",
"stderr": "",
"returncode": 0
}
}
curl -X POST "http://localhost:8000/v1/tools/execute?tool_name=execute_python" \
-H "Content-Type: application/json" \
-d '{
"code": "print(2 + 2)",
"timeout": 10
}'
返回结果:
{
"success": true,
"result": {
"stdout": "4\n",
"stderr": "",
"returncode": 0
}
}
提问技巧: 说明需求、语言、功能
你: 用 Python 写一个函数,读取 CSV 文件并统计每列的平均值
AI: [生成完整代码]
提问技巧: 直接粘贴代码,询问功能
你: 这段代码是做什么的?
def fib(n):
return n if n <= 1 else fib(n-1) + fib(n-2)
AI: 这是一个递归实现的斐波那契数列函数...
提问技巧: 提供错误信息和相关代码
你: 我的代码报错 "TypeError: 'NoneType' object is not subscriptable"
代码是: result = data[0]
AI: 这个错误说明 data 是 None,可能是因为...
提问技巧: 直接提问,可以追问
你: 什么是 Docker?
AI: [解释 Docker]
你: 它和虚拟机有什么区别?
AI: [对比说明]
提问技巧: 说明文档类型和内容要求
你: 帮我写一个 API 接口文档,接口是 POST /api/users,用于创建用户
AI: [生成规范的 API 文档]
❌ 不好的提问: "帮我写代码" ✅ 好的提问: "用 Python 写一个函数,输入是字符串列表,输出是去重后的列表"
如果是多轮对话,AI 会记住之前的内容:
你: 我在用 Flask 开发 Web 应用
AI: 好的,有什么可以帮你的吗?
你: 怎么处理 POST 请求?
AI: 在 Flask 中,你可以使用 @app.route 装饰器...
复杂问题可以拆分:
你: 我想做一个待办事项应用
AI: [给出整体建议]
你: 先帮我设计数据库表结构
AI: [设计表结构]
你: 现在写后端 API
AI: [生成 API 代码]
你: 用表格形式对比 Python 和 JavaScript 的特点
AI: [生成 Markdown 表格]
你: 用代码注释的方式解释这段代码
AI: [添加详细注释]
控制回复的随机性和创造性:
| 值 | 适用场景 | 效果 |
|---|---|---|
| 0.1-0.3 | 代码生成、数学计算、事实问答 | 严谨、确定性强 |
| 0.4-0.7 | 日常对话、技术解释 | 平衡 |
| 0.8-1.0 | 创意写作、头脑风暴 | 有创意、多样性 |
控制回复的最大字数:
| 值 | 适用场景 |
|---|---|
| 128-512 | 简短回答、代码片段 |
| 512-1024 | 中等长度解释 |
| 1024-2048 | 长文档、完整代码 |
| 2048-4096 | 长篇文章、复杂项目 |
原因: 模型正在生成,这是正常的 建议:
解决方法:
Web UI: 自动记住当前会话的所有对话 API: 需要在 messages 中包含历史消息
Web UI: 支持 8k tokens(约 6000 汉字) API: 支持 32k tokens(约 24000 汉字)
主要支持中文和英文,可以进行中英互译。
不支持。模型基于训练数据回答,知识截止到 2025 年 1 月。
Web UI: 点击"清空对话"按钮 API: 发送新请求时不包含历史消息
项目提供两个测试脚本,用于验证 API 功能:
测试所有 API 端点:
python test_api.py
测试内容:
使用 OpenAI SDK 测试兼容性:
python test_openai_compat.py
测试内容:
前置条件: 需要安装 openai 库
pip install openai
API_DOCUMENTATION.md就这么简单!开始使用吧 🚀
提示: 如果服务未启动,请联系管理员运行 ./start_app.sh 或 ./start_api.sh
认证作者

支持自启动