TRL

TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记

(1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例，请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原 ......

Reinforcement Transformer Learning Trainer 笔记更新时间 2023-11-13

使用 DDPO 在 TRL 中微调 Stable Diffusion 模型

引言扩散模型 (如 DALL-E 2、Stable Diffusion) 是一类文生图模型，在生成图像 (尤其是有照片级真实感的图像) 方面取得了广泛成功。然而，这些模型生成的图像可能并不总是符合人类偏好或人类意图。因此出现了对齐问题，即如何确保模型的输出与人类偏好 (如“质感”) 一致，或者与那 ......

Diffusion 模型 Stable DDPO TRL更新时间 2023-10-23

Llama2-Chinese项目：8-TRL资料整理

TRL（Transformer Reinforcement Learning）是一个使用强化学习来训练Transformer语言模型和Stable Diffusion模型的Python类库工具集，听上去很抽象，但如果说主要是做SFT（Supervised Fine-tuning）、RM（Reward ......

Llama2-Chinese Chinese 项目 Llama2 资料更新时间 2023-10-05

TRL 正式推出，来训练你的首个 RLHF 模型吧！

![](https://man-archives.oss-cn-hangzhou.aliyuncs.com/goofan/202308101215960.png) 我们正式向大家介绍 TRL——Transformer Reinforcement Learning。这是一个超全面的全栈库，包含了一整套 ......

模型 RLHF TRL更新时间 2023-08-11

共4篇 :1/1页 首页上一页1下一页尾页

526互联

TRL

TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记

使用 DDPO 在 TRL 中微调 Stable Diffusion 模型

Llama2-Chinese项目：8-TRL资料整理

TRL 正式推出，来训练你的首个 RLHF 模型吧！