文章

Diffusion Policy

representing a robot’s visuomotor policy as a conditional denoising process.

Diffusion Policy learns the gradient of the action-distribution score function and iteratively optimizes with respect to this gradient field during inference via a series of stochastic Langevin dynamics steps.

优势:

  1. 通过学习action score function的梯度,病症这个梯度场上执行 Stochastic Langevin Dynamics sampling, Diffusion policy能够表达任意归一化分布,包括多模态动作分布。

  2. 扩散模型已经在图像生成领域的表现,证明了其在高维空间中的可扩展性。这一特性也使得其可以推测一系列的未来行动(而不是单步的),对于action一致性和避免短视规划(myopic planning)非常重要。

  3. 基于能量函数的策略通常需要负采样来估计一个难处理的归一化常数。会导致训练不稳定,Diffusion policy通过学习能量函数的梯度来绕过这一问题,来实现稳定的训练并保持distributional expressivity.

Denoising Diffusion Probabilistic Model(DDPM) 去噪扩散概率模型

\[x' = a (x'' - y g(x^*, k)) + V(0.071)\]
本文由作者按照 CC BY 4.0 进行授权