基于价值的深度强化学习-526互联

由于动作和状态是随机的，又ut依赖于状态和动作，故ut也是随机的

最佳动作价值函数能给我们作出动作给予指导

我们利用神经网络来近似最佳动作价值函数

利用DQN进行动作价值函数的计算，例如我们可以将图片通过卷积层转换为特征向量，

再利用全连接层转换为对应的输出向量即为各个动作的打分。通过打分即可选择动作。

此图为用DQN玩游戏的流程。

用梯度下降法调整参数w降低误差，梯度下降法原理如下

若只在dc就停车了，怎么利用nyc到dc的旅程改进模型

我们可以利用时间差分学习TD Learning，利用现在预估的时间以及原来预估的时间做梯度下降，更新参数。

TD Learning 的原理就是尽量使TD error小。

我们可以利用TD Learning 应用于速度强化学习中。

DQN利用神经网络近似最佳动作价值函数，输入为状态，输出为对动作的打分。

TD算法的一个迭代过程：

首先利用初始状态和动作预测动作价值函数，计算出动作价值函数对w的导数

然后执行动作，环境会给出新的状态和奖励。据此利用TD计算出新的动作价值函数

最后利用梯度下降法调整参数优化模型