基于价值的深度强化学习

发布时间 2023-05-20 15:27:47作者: 胡子鑫666

 由于动作和状态是随机的,又ut依赖于状态和动作,故ut也是随机的

 最佳动作价值函数能给我们作出动作给予指导

 

 我们利用神经网络来近似最佳动作价值函数

 

 利用DQN进行动作价值函数的计算,例如我们可以将图片通过卷积层转换为特征向量,

再利用全连接层转换为对应的输出向量即为各个动作的打分。通过打分即可选择动作。

 此图为用DQN玩游戏的流程。

 用梯度下降法调整参数w降低误差,梯度下降法原理如下

 

 若只在dc就停车了,怎么利用nyc到dc的旅程改进模型

 我们可以利用时间差分学习TD Learning,利用现在预估的时间以及原来预估的时间做梯度下降,更新参数。

 TD Learning 的原理就是尽量使TD error小。

 我们可以利用TD Learning 应用于速度强化学习中。

 

 

 

 DQN利用神经网络近似最佳动作价值函数,输入为状态,输出为对动作的打分。

 TD算法的一个迭代过程:

 首先利用初始状态和动作预测动作价值函数,计算出动作价值函数对w的导数

 然后执行动作,环境会给出新的状态和奖励。据此利用TD计算出新的动作价值函数

 最后利用梯度下降法调整参数优化模型