论文阅读笔记《Stochastic Grounded Action Transformation for Robot Learning in Simulation》

发布时间 2023-04-28 08:38:32作者: 垆边画船听雨眠

Stochastic Grounded Action Transformation for Robot Learning in Simulation

发表于IROS 2020(CCF C)

模拟中机器人学习的随机接地动作转换

Desai S, Karnan H, Hanna J P, et al. Stochastic grounded action transformation for robot learning in simulation[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020: 6106-6111.

介绍

由于摩擦、齿轮间隙、不平地形和环境中的其他噪声源等影响,学习值的分布将更准确地反映现实世界。他们将注意力集中在将模拟器视为黑盒的接地算法上,例如接地动作转换(GAT)算法。

他们展示了GAT未能充分接地模拟器的几个领域,他们提出了一种新的算法,随机接地动作转换(SGAT),它通过学习环境中的随机性来优雅地处理这个问题。

方法

随机接地动作转换学习正向动力学的随机模型。换句话说,模型预测的是下一个状态的分布,而不是最有可能的下一个状态。

在连续状态和动作域中,他们将下一个状态建模为多元高斯分布,并使用负对数似然(NLL)损失 \(\mathcal{L} = - log\ p(s_{t+1}|s_t, a_t)\) 训练前向模型。与GAT类似,他们使用具有两个全连接的64个神经元隐藏层的神经网络函数逼近器来表示正向和逆模型,但与GAT不同的是,SGAT中的正向模型输出高斯分布的参数,他们从中采样预测的下一个状态。在他们的实现中,最后的全连接层为状态向量的每个元素输出平均值,\(µ\) 和对数标准偏差,\(log(σ)\)

更多具体方法细节,参见本作的前代研究《Grounded Action Transformation for Robot Learning in Simulation》。

实验

悬崖行走(sim-to-sim)实验

他们使用经典的强化学习域悬崖行走(网格世界)验证了SGAT的好处。在这个领域中,智能体必须绕过悬崖才能到达目标。在他们的问题版本中,他们假设有一个确定性模拟器,但在“真实”环境中,在每个时间步骤中,智能体都有很小的机会朝着随机方向移动,而不是它选择的方向。

image-20230418190917805
图1 实验场景

图7为不同环境噪声参数值下的GAT和SGAT。重复基础步骤和策略改进步骤,直到两种算法收敛为止。为了评估最终的策略,他们估计平均10,000集的预期回报。当值为0时,“真实”环境是完全确定的。当值为1时,每个跃迁都是随机的。因此,在这两个端点上,两种算法获得的预期收益之间没有区别。

对于每一个中间值,SGAT都优于GAT。

image-20230418191315057
图2 悬崖行走实验结果

MuJoCo环境(sim-to-sim)实验

这篇论文研究了在连续控制领域中,结构化图注意力转移(SGAT)算法的性能评估。研究者在OpenAI Gym MuJoCo环境中进行实验,比较了SGAT和图注意力转移(GAT)算法在存在噪声的目标环境中的有效性。他们选择了Inverted Pendulum和Half Cheetah领域来测试SGAT在低维和高维状态及动作空间环境中的性能。结果表明,随着目标环境随机性的增加,使用SGAT学到的策略比使用GAT学到的策略表现更好,而动作噪声信封(ANE)方法只在特定的噪声值下表现良好。

image-20230424095027088
图3 四种方法(在未接地模拟器上训练策略、SGAT、GAT和ANE)在“真实”环境中的表现。

image

图4 在 HalfCheetah 上进行的相同实验,包括领域不匹配的情况。

NAO 机器人(sim-to-real)实验

作者使用了 SoftBank NAO 机器人和 SimSpark 物理模拟器进行实验,在不平坦的地形上让机器人学习走路。作者比较了 GAT 和 SGAT 两种算法的效果,结果表明,SGAT 算法更成功,能够让机器人保持平衡走路。作者通过模拟器优化不稳定性来改进策略,最后在不平衡地面上进行了十次试验,结果表明,采用 SGAT 算法产生的策略比使用 GAT 的更为稳定,成功率更高。论文最终得出结论,SGAT 算法适用于现实世界中机器人学习走路的应用。

image

图4 机器人在不平整地面上行走的实验设置。
表1 NAO机器人在不平整地面上行走的速度和稳定性。
Speed (cm/s) Falls Speed (cm/s) Falls
GAT 15.7 ± 2.98 6/10 18.5 ± 3.63 10/10
SGAT 16.9 ± 0.678 0/10 18.0 ± 2.15 1/10

总结

这两种算法在确定性环境中的表现相似。在现实世界中,我们无法在测试前知道环境的随机程度。这一事实表明,我们应该默认使用SGAT。