镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
DeepSeek
LLM
Unsloth-DeepSeek-R1-GGUF
R1-671b动态量化版,由unsloth发布,推荐使用多卡进行部署。 详情请查看镜像内说明或者readme。还附带32b的无限制版蒸馏模型,使用open-webui和ollama以及llama.cpp进行部署。
0/小时
v1.0

Unsloth-DeepSeek-R1-GGUF

DeepSeek R1

所使用项目 unsloth、llama.cpp、open-webui、ollama


目前在各种视频上看见的deepseek R1大部分都是distill(蒸馏)模型,底模并非deepseek,比如常说的32b,70b等。ollama那里只有671这一个是deepseek r1模型



该镜像默认使用的是经过量化后的deepseek r1,由unsloth发布
llama.cpp仓库地址:https://github.com/ggerganov/llama.cpp
open-webui文档地址: https://docs.openwebui.com/
ollama官网:https://ollama.com/
使用到的模型仓库:https://huggingface.co/unsloth/DeepSeek-R1-GGUF/
unsloth官方的部署文档:https://unsloth.ai/blog/deepseekr1-dynamic


该镜像由bilibili@kiss丿冷鸟鸟 所制作
有问题可以bilibili私信我(点个关注谢谢喵)
视频教程:[待制作]
QQ交流群:829974025


一些说明

unsloth文档给了四个模型

MoE BitsTypeDisk SizeAccuracyDetails
1.58bitUD-IQ1_S131GBFairMoE all 1.56bit. down_proj in MoE mixture of 2.06/1.56bit
1.73bitUD-IQ1_M158GBGoodMoE all 1.56bit. down_proj in MoE left at 2.06bit
2.22bitUD-IQ2_XXS183GBBetterMoE all 2.06bit. down_proj in MoE mixture of 2.5/2.06bit
2.51bitUD-Q2_K_XL212GBBestMoE all 2.5bit. down_proj in MoE mixture of 3.5/2.5bit


①镜像选择1.58的作为默认配置
②部署1.58bit的如果需要全部加载到显存上,需要2x80GB的显卡,换算成24g的4090需要挺多张,但是相较于需要一大堆H100的671b的原本模型,所用配置已经相当低了,全部加载到内存上推理可能会比较慢,因此可以通过将部分layer卸载到显存上从而加快推理速度
③单卡4090的话不是很推荐,因为平台给的内存也挺低的,貌似显存内存加在一起都有点放不下,只有0.17token/s,双卡4090,layer为17或者16,大概1.5token/s到2tokens/s之间,再多的话没测过,虽然这速度也不是不能用,三卡应该就能正常用了,当然,选择更大显存的A100或者H100,即可全部吃下,飞快使用(
④当然,该镜像还搭载了ollama,你不想使用r1模型的话也可以试试蒸馏模型,单卡4090妥妥够了,70b的那个中文效果还不如32g,镜像内自带的两个蒸馏模型分别是32b官方版和32b越狱般。启动ollama服务后,再启动open-webui,进入到open-webui即可使用
⑤量化模型也可以在llama.cpp的serve上面推,open-webui并不是必须的
大概就这样

扫码加入DeepSeek使用交流群

image

镜像信息
@39c5bb
已使用
92
镜像大小110GB
最近编辑2025-02-07
支持卡型
RTX40系48G RTX40系
+2
框架版本
PyTorch-2.5.1
CUDA版本
12.1
应用
JupyterLab: 8888
版本
v1.0
2025-07-02
PyTorch:2.5.1 | CUDA:12.1 | 大小:110.00GB