重修贝尔曼最优方程

发布时间 2023-12-16 10:28:50作者: 糖子哥

 

我觉得,这一章的重点就是,辨析Q(pai)S和V(pai)S,辨析它们拿到最佳pai的时间地点

 

 第一个V(pai)s,因为上一张说他是“海王”,它就想着所有方法都试一下,它的侧重点是所有方法,所以它的概率值分配给不同的方法,比如方法一的概率是pai1,方法2就是(1-pai1),这样子分配下去,然后求出令V(pai)S2期望值最大的pai,这个pai即为所求,就是pai(max)

 

这个Qpai就是没有去纠结要选哪个方法,直接选了,走下去,就是算是类似于直接下场分析各个方法,因为其实到达概率这里是给了p=1,但感觉以后到达率不会直接给1,但先看当下吧,所以谁的期望值高我直接挑谁