GPU操作指南
GPU抢占式实例
GPU抢占式实例

GPU抢占式实例

什么是抢占式实例

抢占式实例价格更低,但可能被平台随时回收。适合可中断、可容错的任务。

核心规则与限制

  • 价格与回收 :抢占式实例更便宜,但可能随时被回收关机。

  • 数据保留 :回收后,数据保留 7 天。

  • 回收后重启 :回收后可手动启动,有资源时系统会在空闲设备上重启。

  • 保护期 :创建后 1 小时为保护期,保护期内系统回收免实例费。

  • 关机与释放 :不支持手动关机/关机免收费,不用时请直接释放。

  • 实例类型转换 :不支持转为独占式实例,请谨慎选择。

如何创建抢占式实例

部署实例页面,选择镜像,选择“抢占式”,选择您需要的机型和其他配置,点击立即部署

实例状态与操作说明

抢占式实例被回收时,会显示“已中断”,此时仅允许“启动/删除”。 其他状态和正常实例保持一致,抢占式实例无法“关机”,只可“删除”。

计费规则说明

系统回收:运行 <1h:免单;运行 ≥1h:按实际时长计费, 主动释放:按实际时长计费。

最佳实践

为提高抢占式实例的稳定性与可恢复性,建议您参考以下做法:

  • 开启断点续训/定期保存
    建议训练或计算任务按固定周期保存 Checkpoint 到独立存储(如对象存储或共享盘),以便实例中断后快速恢复。

  • 设计可重试任务
    将大任务拆分为多个小任务或批次,并支持失败重试或续跑,避免一次中断导致整体失败。

  • 采用混合使用策略
    关键业务或最终训练建议使用按量/包周期实例兜底;非关键或可重算任务使用抢占式,以实现成本与稳定性的平衡。

  • 及时响应回收通知
    收到回收预警后,尽快保存数据或中间结果,避免在“待回收”阶段进行重操作。

  • 准备一键恢复脚本
    建议提前准备环境恢复与任务重启脚本(如依赖安装、数据挂载、加载最近保存点),缩短中断后的恢复时间。

Copyright © 2026 沪ICP备12020087号-61