Intention-Aware Online POMDP Planning for Autonomous Driving in a Crowd-526互联

一、论文信息

发表日期：2015年

发表机构：新加坡国立大学，计算机科学系

二、论文内容

1.解决问题：无人车在人员密集处的速度规划算法

2.方法：前向仿真+强化学习概念

①.路径规划和速度规划进行解耦，进行速度规划之前路径已确定。

②.速度规划采取部分可观测马尔可夫决策过程，借用了强化学习的动作价值函数思想，S, A, Z, T, O, R, γ。设计状态变量、动作空间、动作价值函数。观测变量包括自车的状态变量（x,y,theta,v等）和行人的状态变量（x,y,v）。状态变量由观测值推出，基本与观测变量相同，但是需要由行人时序信息推测出其目的地goal（可能有多个）。动作价值函数考虑与行人距离、与目的地距离、快速性以及行驶的平稳性。动作空间为加速（0.5m/s^2）、减速（-0.5m/s^2)、匀速（0m/s^2）。在每个规划周期离线向前推导若干步，计算每个动作的价值函数，选取最大的一个进行执行。