Stochastic Grounded Action Transformation for Robot Learning in Simulation

发表于IROS 2020(CCF C)

模拟中机器人学习的随机接地动作转换

Desai S, Karnan H, Hanna J P, et al. Stochastic grounded action transformation for robot learning in simulation[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020: 6106-6111.

介绍

由于摩擦、齿轮间隙、不平地形和环境中的其他噪声源等影响，学习值的分布将更准确地反映现实世界。他们将注意力集中在将模拟器视为黑盒的接地算法上，例如接地动作转换(GAT)算法。

他们展示了GAT未能充分接地模拟器的几个领域，他们提出了一种新的算法，随机接地动作转换(SGAT)，它通过学习环境中的随机性来优雅地处理这个问题。

方法

随机接地动作转换学习正向动力学的随机模型。换句话说，模型预测的是下一个状态的分布，而不是最有可能的下一个状态。

在连续状态和动作域中，他们将下一个状态建模为多元高斯分布，并使用负对数似然(NLL)损失 \(\mathcal{L} = - log\ p(s_{t+1}|s_t, a_t)\) 训练前向模型。与GAT类似，他们使用具有两个全连接的64个神经元隐藏层的神经网络函数逼近器来表示正向和逆模型，但与GAT不同的是，SGAT中的正向模型输出高斯分布的参数，他们从中采样预测的下一个状态。在他们的实现中，最后的全连接层为状态向量的每个元素输出平均值，\(µ\) 和对数标准偏差，\(log(σ)\)。

更多具体方法细节，参见本作的前代研究《Grounded Action Transformation for Robot Learning in Simulation》。

实验

悬崖行走(sim-to-sim)实验

他们使用经典的强化学习域悬崖行走(网格世界)验证了SGAT的好处。在这个领域中，智能体必须绕过悬崖才能到达目标。在他们的问题版本中，他们假设有一个确定性模拟器，但在“真实”环境中，在每个时间步骤中，智能体都有很小的机会朝着随机方向移动，而不是它选择的方向。

图1 实验场景

图7为不同环境噪声参数值下的GAT和SGAT。重复基础步骤和策略改进步骤，直到两种算法收敛为止。为了评估最终的策略，他们估计平均10,000集的预期回报。当值为0时，“真实”环境是完全确定的。当值为1时，每个跃迁都是随机的。因此，在这两个端点上，两种算法获得的预期收益之间没有区别。

对于每一个中间值，SGAT都优于GAT。

图2 悬崖行走实验结果

MuJoCo环境(sim-to-sim)实验

这篇论文研究了在连续控制领域中，结构化图注意力转移（SGAT）算法的性能评估。研究者在OpenAI Gym MuJoCo环境中进行实验，比较了SGAT和图注意力转移（GAT）算法在存在噪声的目标环境中的有效性。他们选择了Inverted Pendulum和Half Cheetah领域来测试SGAT在低维和高维状态及动作空间环境中的性能。结果表明，随着目标环境随机性的增加，使用SGAT学到的策略比使用GAT学到的策略表现更好，而动作噪声信封（ANE）方法只在特定的噪声值下表现良好。

图3 四种方法（在未接地模拟器上训练策略、SGAT、GAT和ANE）在“真实”环境中的表现。

图4 在 HalfCheetah 上进行的相同实验，包括领域不匹配的情况。

NAO 机器人(sim-to-real)实验

作者使用了 SoftBank NAO 机器人和 SimSpark 物理模拟器进行实验，在不平坦的地形上让机器人学习走路。作者比较了 GAT 和 SGAT 两种算法的效果，结果表明，SGAT 算法更成功，能够让机器人保持平衡走路。作者通过模拟器优化不稳定性来改进策略，最后在不平衡地面上进行了十次试验，结果表明，采用 SGAT 算法产生的策略比使用 GAT 的更为稳定，成功率更高。论文最终得出结论，SGAT 算法适用于现实世界中机器人学习走路的应用。