扩散策略,这是一种生成机器人行为的新方法,它将机器人的视觉运动策略(visuomotor policy)表示为条件去噪扩散过程(conditional denoising diffusion process)。在 4 个不同的机器人操纵基准中的 15 个不同任务中对 Diffusion Policy 进行了基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高了 46.9%。Diffusion Policy 可以学习动作分布得分函数的梯度(gradient of the action-distribution score),并在推理过程中通过一系列随机朗之文动力学(stochastic Langevin dynamics)步骤对该梯度场进行迭代优化。
详细内容可以参考:https://hermit.blog.csdn.net/article/details/144346359