RLChina

RLChina理论三:强化学习基础

###强化学习基础 ![](https://img2023.cnblogs.com/blog/1577777/202302/1577777-20230203124432670-1477841240.png) ![](https://img2023.cnblogs.com/blog/1577777/2 ......
RLChina 理论 基础

RLChina2022公开课-博弈论

###纯博弈: 单纯的动机组合,离散的集合 ###混合博弈: 加入了概率论,以百分比的概率执行不同的的动机。,概率分布 零和博弈、合作博弈、协同博弈 ###扩展博弈和非完美信息 ###扩展博弈、贝叶斯博弈 ###纳什均衡 任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变)都不会提高自 ......
博弈论 RLChina 2022

RLChina2022公开课-博弈搜索算法

###序列决策 ![](https://img2023.cnblogs.com/blog/1577777/202301/1577777-20230111151224042-473778128.png) **序列决策问题一般用马尔可夫决策模型进行描述** ![](https://img2023.cnb ......
算法 RLChina 2022

RLChina2022-实践课三:强化学习算法

###MDP算法 MDP被定义为一个元组(S,A,P,r,R) S:所有状态集合 A:在环境力里面智能体所作动作的集合 P:状态转移函数P(s'|s,a),智能体在当前s下,执行a之后,转移到是s'的概率 R:奖励函数R(s,a),表示在环境s下执行动作a之后获得的立即奖励,有时候还需要知道s'是多 ......
算法 RLChina 2022
共4篇  :1/1页 首页上一页1下一页尾页