Deep Dynamics Models for Learning Dexterous Manipulation-526互联

发表时间：2019 (CoRL 2019)
文章要点：文章提出了一个online planning with deep dynamics models (PDDM)的算法来学习Dexterous multi-fingered hands，大概意思就是学习拟人的灵活的手指操控技巧。大概思路就是结合uncertainty-aware neural network models和gradient-free trajectory optimization，先学习dynamics models，然后用online model-predictive control来选择动作。
具体的，先假设状态转移是个高斯分布

然后用ensembles的方式学习多个model来度量model uncertainty。
对于online planning这块，作者在Random Shooting和cross-entropy method (CEM)的基础上，多考虑了和时间步相关的协方差（considers covariances between time steps），然后用softer update rule来更新。具体的，CEM通过采用的方式得到动作序列，然后选取最好的J个动作来更新均值和协方差，然后通过更新的估计进行下一轮的动作选择。

作者用的方式多加入了时间的平滑，

另外，在采样动作的时候不用random policy来做，而是用一个平滑化的方法来选择动作，这个平滑项n通过噪声的方式加到之前学到的\(\mu\)上，有点时间序列的意思

总结：方法虽然很常规，但是效果还是很好的。而且有模拟有实物，不好做的。
疑问：其实不是很明白为什么online planning去学均值和方差的时候要和time steps产生关系，为了让动作序列更加平滑？难道这就是使得机械臂产生拟人动作的关键吗，这样就不会产生波动很大的动作了？