Combining

Muesli: Combining Improvements in Policy Optimization

![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230602222440022-2137032229.png) **发表时间：**2021（ICML 2021） **文章要点：**这篇文章提出一个更新policy的方式，结合 ......

Improvements Optimization Combining Muesli Policy更新时间 2023-06-02

Feb 2023-Replay Memory as An Empirical MDP: Combining Conservative Estimation with Experience Replay

将 replay memory视为经验 replay memory MDP (RM-MDP)，并通过求解该经验MDP获得一个保守估计。MDP是非平稳的，可以通过采样有效地更新。基于保守估计设计了价值和策略正则化器，并将其与经验回放(CEER)相结合来正则化DQN的学习。 ......

Replay Conservative Estimation Experience Empirical更新时间 2023-05-23

Combining Label Propagation and Simple Models Out-performs Graph Neural Networks

[TOC] > [Huang Q., He H., Singh A., Lim S. and Benson A. R. Combining label propagation and simple models out-performs graph neural networks. ICLR, 20 ......

Out-performs Propagation Combining Networks performs更新时间 2023-05-22

共3篇 :1/1页 首页上一页1下一页尾页

526互联

Combining

Muesli: Combining Improvements in Policy Optimization

Feb 2023-Replay Memory as An Empirical MDP: Combining Conservative Estimation with Experience Replay

Combining Label Propagation and Simple Models Out-performs Graph Neural Networks