值迭代与策略迭代(有模型)

发布时间 2023-12-16 12:05:16作者: 糖子哥

 先说一下我初始理解,就是图片上面有三部曲,然后他是一个有模型的算法,然后假如说我让他训练100次就是,用python来表达就是 for episode in (100),这个就是最外面的那一层循环,然后每次episode,就是上面三部曲,但是第一步初始化环境是会根据上一个episode来变化的,从第一个episode开始讲,就是比如你vs全部都给你设成0,然后你王子每走一步,就会得到一个-1的reward,然后你得找到一个V'最大的点走过去,那个点的V‘其实是0,所以你目前的本状态的vs就得到了就是-1,然后你就写下孙悟空到此一游,把-1标上去,就类似于到此一游吧,然后你给本状态的v写好了之后,再跑去下一个状态,按照上面的方法一直走下去,可以理解成,你 for episode in (100)里面套着一个while循环,最终到达终点,然后此时此刻,你这个while循环走完之后捏,然后你会进入下一个episode,你会得到一张写满了“到此一游”(就是各个格子V值)的一张地图(来自上一个episode的while循环),让模型把它吃下去,重新初始化一个环境,与之前的全部都是零相对,这就是学习,如下图