值迭代与策略迭代（有模型）-526互联

先说一下我初始理解，就是图片上面有三部曲，然后他是一个有模型的算法，然后假如说我让他训练100次就是，用python来表达就是 for episode in (100),这个就是最外面的那一层循环，然后每次episode，就是上面三部曲，但是第一步初始化环境是会根据上一个episode来变化的，从第一个episode开始讲，就是比如你vs全部都给你设成0，然后你王子每走一步，就会得到一个-1的reward，然后你得找到一个V'最大的点走过去，那个点的V‘其实是0，所以你目前的本状态的vs就得到了就是-1，然后你就写下孙悟空到此一游，把-1标上去，就类似于到此一游吧，然后你给本状态的v写好了之后，再跑去下一个状态，按照上面的方法一直走下去，可以理解成，你 for episode in (100)里面套着一个while循环，最终到达终点，然后此时此刻，你这个while循环走完之后捏，然后你会进入下一个episode，你会得到一张写满了“到此一游”（就是各个格子V值）的一张地图（来自上一个episode的while循环），让模型把它吃下去，重新初始化一个环境，与之前的全部都是零相对，这就是学习，如下图