TRL

TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记

(1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例,请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原 ......

使用 DDPO 在 TRL 中微调 Stable Diffusion 模型

引言 扩散模型 (如 DALL-E 2、Stable Diffusion) 是一类文生图模型,在生成图像 (尤其是有照片级真实感的图像) 方面取得了广泛成功。然而,这些模型生成的图像可能并不总是符合人类偏好或人类意图。因此出现了对齐问题,即如何确保模型的输出与人类偏好 (如“质感”) 一致,或者与那 ......
Diffusion 模型 Stable DDPO TRL

Llama2-Chinese项目:8-TRL资料整理

TRL(Transformer Reinforcement Learning)是一个使用强化学习来训练Transformer语言模型和Stable Diffusion模型的Python类库工具集,听上去很抽象,但如果说主要是做SFT(Supervised Fine-tuning)、RM(Reward ......
Llama2-Chinese Chinese 项目 Llama2 资料

TRL 正式推出,来训练你的首个 RLHF 模型吧!

![](https://man-archives.oss-cn-hangzhou.aliyuncs.com/goofan/202308101215960.png) 我们正式向大家介绍 TRL——Transformer Reinforcement Learning。这是一个超全面的全栈库,包含了一整套 ......
模型 RLHF TRL
共4篇  :1/1页 首页上一页1下一页尾页