GPU抢占式实例
什么是抢占式实例
抢占式实例价格更低,但可能被平台随时回收。适合可中断、可容错的任务。
核心规则与限制
-
价格与回收 :抢占式实例更便宜,但可能随时被回收关机。
-
数据保留 :回收后,数据保留 7 天。
-
回收后重启 :回收后可手动启动,有资源时系统会在空闲设备上重启。
-
保护期 :创建后 1 小时为保护期,保护期内系统回收免实例费。
-
关机与释放 :不支持手动关机/关机免收费,不用时请直接释放。
-
实例类型转换 :不支持转为独占式实例,请谨慎选择。
如何创建抢占式实例
部署实例页面,选择镜像,选择“抢占式”,选择您需要的机型和其他配置,点击立即部署

实例状态与操作说明
抢占式实例被回收时,会显示“已中断”,此时仅允许“启动/删除”。 其他状态和正常实例保持一致,抢占式实例无法“关机”,只可“删除”。

计费规则说明
系统回收:运行 <1h:免单;运行 ≥1h:按实际时长计费, 主动释放:按实际时长计费。
最佳实践
为提高抢占式实例的稳定性与可恢复性,建议您参考以下做法:
-
开启断点续训/定期保存
建议训练或计算任务按固定周期保存 Checkpoint 到独立存储(如对象存储或共享盘),以便实例中断后快速恢复。 -
设计可重试任务
将大任务拆分为多个小任务或批次,并支持失败重试或续跑,避免一次中断导致整体失败。 -
采用混合使用策略
关键业务或最终训练建议使用按量/包周期实例兜底;非关键或可重算任务使用抢占式,以实现成本与稳定性的平衡。 -
及时响应回收通知
收到回收预警后,尽快保存数据或中间结果,避免在“待回收”阶段进行重操作。 -
准备一键恢复脚本
建议提前准备环境恢复与任务重启脚本(如依赖安装、数据挂载、加载最近保存点),缩短中断后的恢复时间。