pte rl

offline RL | Pessimistic Bootstrapping (PBRL)：在 Q 更新中惩罚 uncertainty，拉低 OOD Q value

critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error，① 对所转移去的 (s',a') 的 uncertainty 进行惩罚，② 对 (s, a_ood) 的 uncertainty 进行惩罚。 ......

Bootstrapping Pessimistic uncertainty offline value更新时间 2023-12-17

offline RL | BCQ：学习 offline dataset 的 π(a|s)，直接使用 (s, π(s)) 作为 Q learning 训练数据

① 使用 VAE 建模 offline dataset 的 π(a|s)，② 添加一个可以学习的 action 扰动 ξ，③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。 ......

offline learning dataset 数据 BCQ更新时间 2023-11-27

offline RL | IQL：通过 sarsa 式 Q 更新避免 unseen actions

① 通过 (s,a,r,s',a') 更新 Q function，② 通过 Q 和 V 交替迭代，避免过拟合 s'~p(s'|a) 的随机好 s'，误以为 a 是好 action，③ 通过 AWR 从 Q function 提取 policy。 ......

offline actions unseen sarsa IQL更新时间 2023-11-25

offline RL | TD3+BC：在最大化 Q advantage 时添加 BC loss 的极简算法

① 在 actor 最大化 Q advantage 时，纳入一个 behavior cloning loss； ② observation 归一化；③ 让 Q advantage 跟 behavior cloning 的 loss 可比。 ......

算法 advantage offline BC loss更新时间 2023-11-19

适合家电和消费类应用R7F101GLG2DFA、R7F101GLE2DFA、R7F101GLG3CFA、R7F101GLE3CFA新一代RL78通用微控制器（MCU）

概览： RL78/G24微控制器是RL78系列MCU之中处理性能最强大的微控制器，CPU运行频率高达48MHz，搭配柔性应用加速器（FAA）。此外，它还搭载增强的模拟功能和丰富的定时器，适用于电机控制、电源和照明应用。FAA是一种运算专用的协处理器，可以独立于CPU运行，从而实现更强大的处理能力。 ......

F101 101 制器消费类 R7更新时间 2023-11-17

off-policy RL | Advantage-Weighted Regression (AWR)：组合先前策略得到新 base policy

Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning 论文题目：Advantage-Weighted Regression: Simple and Scalable Off-Polic ......

policy Advantage-Weighted off-policy Regression Advantage更新时间 2023-11-13

RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。 ......

benchmark learning offline 部分 reward更新时间 2023-11-13

off-line RL | CQL：魔改 Bellman error 更新，得到 Q 函数 lower-bound

论文题目： Conservative Q-Learning for Offline Reinforcement Learning CQL 是师兄盛赞的一篇论文：“是 off-line RL 最精彩的工作之一，扭曲了 Q function，认为没看过的 Q 很有风险，把 OOD（out of dist ......

lower-bound 函数 off-line Bellman error更新时间 2023-11-07

RL 基础 | Policy Iteration 的收敛性证明

（其实是专业课作业🤣 感觉算法岗面试可能会问，来存一下档）目录问题：证明 Policy Iteration 收敛性0 Background - 背景1 Policy Evaluation converges to the value function of the given policy - ......

Iteration 基础 Policy RL更新时间 2023-11-02

一文读懂强化学习：RL全面解析与Pytorch实战

在本篇文章中，我们全面而深入地探讨了强化学习（Reinforcement Learning）的基础概念、主流算法和实战步骤。从马尔可夫决策过程（MDP）到高级算法如PPO，文章旨在为读者提供一套全面的理论框架和实用工具。同时，我们还专门探讨了强化学习在多个领域，如游戏、金融、医疗和自动驾驶等的具体应 ......

实战 Pytorch更新时间 2023-11-02

RL 基础 | Value Iteration 的收敛性证明

贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射，因此 {V, BV, B²V, ...} 是柯西序列，会收敛到 V=BV 的不动点。 ......

Iteration 基础 Value RL更新时间 2023-10-24

Varibad：A very good method for bayes-adaptive deep rl via meta-learning

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Published as a conference paper at ICLR 2020 ABSTRACT 1 INTRODUCTION 2 BACKGROUND 2.1 TRAINING SETUP 2.2 BAYESIAN REINF ......

bayes-adaptive meta-learning adaptive learning Varibad更新时间 2023-09-18

USB适配器应用芯片国产GP232RL软硬件兼容替代FT232RL DPU02直接替代CP2102

USB适配器，是英文Universal Serial Bus(通用串行总线)的缩写，而其中文简称为“通串线”，是一个外部总线标准，用于规范电脑与外部设备的连接和通讯。是应用在PC领域的接口技术，移动PC由于没有电池，电源适配器对其尤为重要。今天来讲讲USB适配器的国产适用芯片。一、GP232R ......

软硬适配器 232 芯片国产更新时间 2023-09-12

Q-learning and RL implementation

Aim: Train a model to properly play vintage video games... Deep Q-learning Algo~ Very short Brief of Notations: {A,pi(Policy),Q(quality of action-at a ......

implementation Q-learning learning and RL更新时间 2023-09-01

pte 记录 daily

20230814 1 RA reading 阅读 speaking口语在app上练习RA：流利度75分以上，发音70分以上（要稳定）全部机经刷2遍 5-10 2 RS listening听力 speaking 口语短句全复述，长句至少能流利复述前半句或后半句，内容输出50%以上机经过完2遍 20 ......

daily pte更新时间 2023-08-14

【RL】L7-Temporal-difference learning

## TD learning of state values The data/experience required by the algorithm: - $\left(s_0, r_1, s_1, \ldots, s_t, r_{t+1}, s_{t+1}, \ldots\right)$ or ......

L7-Temporal-difference difference Temporal learning L7更新时间 2023-08-13

【RL】CH2-Bellman equation

### the discounted return $$ \begin{aligned} G_t & =R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots \\ & =R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\l ......

CH2-Bellman equation Bellman CH2 CH更新时间 2023-08-13

【RL】CH1-Basic Concepts

# 1.7 Markov decision processes This section presents these concepts in a more formal way under the framework of Markov decision processes (MDPs). An ......

CH1-Basic Concepts Basic CH1 CH更新时间 2023-08-13

pte wfd

20230813 A celebrated theory is still the source of a great controversy. 一个著名的理论仍然是一场大争论的根源。 A new collection of articles has just been published. 一本新 ......

pte wfd更新时间 2023-08-13

PTE RS

It is expected that all students have their own laptops. I would like tomato and cheese sandwiches on white bread and orange juice. All students have ......

PTE RS更新时间 2023-08-13

【RL】第6课-随机近似与随机梯度下降-

第6课-随机近似与随机梯度下降 ## 6.1 Motivating examples ## Mean Estimation Revisit the mean estimation problem: - Consider a random variable $X$. - Our aim is to e ......

梯度更新时间 2023-08-12

PTE WFD test

The student union hosts a variety of social events. It is clear that the national trading system is a good thing. Keeping organised class note makes s ......

test PTE WFD更新时间 2023-08-09