DPO

dpo笔记

参考: https://blog.csdn.net/chacha_/article/details/134527000 这个讲的很好. \(\pi_r\)是我们要的解,我们(4)两边取log得到. y1,y2是两个生成的句子,x是prompt.p是y1比y2好的优化函数.r是reward函数. 机器 ......

笔记 dpo更新时间 2023-12-25

DPO Matching

题意给定一张大小为 \(2n\) 的图，求该图二分图匹配的方案数。 \(n \le 21\)。 Sol 状压板题。设 \(f_T\) 表示 \(T\) 集合内的点被匹配。直接转移即可。 Code #include <iostream> #include <algorithm> #include ......

Matching DPO更新时间 2023-11-21

DPO Llama

转：https://huggingface.co/blog/zh/dpo-trl 简介基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback，RLHF) 事实上已成为 GPT-4 或 Claude 等 LLM 训练的最后一步，它可以确保语言模 ......

Llama DPO更新时间 2023-09-13

使用 DPO 微调 Llama 2

## 简介基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback，RLHF) 事实上已成为 GPT-4 或 Claude 等 LLM 训练的最后一步，它可以确保语言模型的输出符合人类在闲聊或安全性等方面的期望。然而，它也给 NLP 引入了一些 ......

Llama DPO更新时间 2023-08-22

共4篇 :1/1页 首页上一页1下一页尾页

526互联

DPO

dpo笔记

DPO Matching

DPO Llama

使用 DPO 微调 Llama 2