0

设计理念:
base_size: 模型内部处理的基础分辨率image_size: 实际输入图像的目标尺寸crop_mode: 对长文档进行智能分块处理,平衡质量与性能@spaces.GPU # ZeroGPU 装饰器:按需分配 GPU,推理完成后自动释放
def process_image(image, model_size, task_type, is_eval_mode):
model_gpu = model.cuda().to(torch.bfloat16) # 动态移至 GPU + bfloat16 优化
# ... 推理逻辑 ...
# 函数结束后,GPU 自动释放
关键洞察: 模型在启动时加载到 CPU,仅在推理时移至 GPU。这是 ZeroGPU 环境的最佳实践。
应用返回三种格式,满足不同用户需求:
带标注图像 (result_with_boxes.jpg):
Convert to Markdown 任务中生成Markdown 内容 (result.mmd):
纯文本结果:
# 使用启动脚本 (推荐)
./start_app.sh
# 手动启动
conda activate py312
python app.py
访问地址: http://127.0.0.1:7860
py312)./models/DeepSeek-OCR/ (6.3GB,完全本地化)
ps -ef |grep python
kill -9 pid
cd /root && bash run.sh

认证作者