RLHF

RLHF · PbRL | 选择 near on-policy query，加速 policy learning 收敛速度

Query-Policy Misalignment：选择的看似 informative 的 query，实际上可能与 RL agent 的兴趣不一致，因此对 policy learning 几乎没有帮助，最终导致 feedback-efficiency 低下。 ......

policy on-policy learning 速度 query更新时间 2023-12-17

使用Huggingface创建大语言模型RLHF训练流程的完整教程

ChatGPT已经成为家喻户晓的名字，而大语言模型在ChatGPT刺激下也得到了快速发展，这使得我们可以基于这些技术来改进我们的业务。但是大语言模型像所有机器/深度学习模型一样，从数据中学习。因此也会有garbage in garbage out的规则。也就是说如果我们在低质量的数据上训练模型，那 ......

Huggingface 模型流程语言教程更新时间 2023-12-05

RLHF · PBRL | B-Pref：生成多样非理性 preference，建立 PBRL benchmark

贡献：提出一种生成非理性（模拟人类）preference 的方法，使用多样化的 preference，评测了 PBRL 各环节算法设计（select informative queries、feedback schedule）的效果。 ......

非理性 PBRL preference benchmark B-Pref更新时间 2023-11-30

使用 PPO 算法进行 RLHF 的 N 步实现细节

当下，RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究，这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库，其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x” ......

算法细节 RLHF PPO更新时间 2023-11-16

RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。 ......

benchmark learning offline 部分 reward更新时间 2023-11-13

RLHF · PBRL | SURF：使用半监督学习，对 labeled segment pair 进行数据增强

① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label；② 将 labeled segment pair 进行时序剪裁，得到更多数据增强的 labeled pair。 ......

labeled segment 数据 RLHF PBRL更新时间 2023-11-11

RLHF · PBRL | RUNE：鼓励 agent 探索 reward model 更不确定的 (s,a)

reward model 对某 (s,a) 的不确定性，由一系列 ensemble reward models 的输出结果方差的度量，直接乘一个超参数，作为 intrinsic reward 的一部分。 ......

reward agent model RLHF PBRL更新时间 2023-11-10

RLHF · PBRL | PEBBLE：通过 human preference 学习 reward model

① 使用熵 intrinsic reward 的 agent pre-training，② 选择尽可能 informative 的 queries 去获取 preference，③ 使用更新后的 reward model 对 replay buffer 进行 relabel。 ......

preference PEBBLE reward human model更新时间 2023-11-09

基于LoRA的RLHF

参考Github 开源模型 LLM-Tuning 一、简介（1）RLHF (基于人类反馈的强化学习) 分为三步： SFT (Supervised Fine-Tuning): 有监督的微调，使用正常的 instruction following 或者对话的样本，来训练模型的基础对话、听从 promp ......

LoRA RLHF更新时间 2023-11-09

RLHF总结

RAFT：Reward rAnked FineTuning for Generative Foundation Model Alignment 给一批Prompt，先让大模型生成对每一个prompt生成一个answer，然后让RM去给这些prompt-answer对进行打分，把得分高的选出来用于Fi ......

RLHF更新时间 2023-11-02

大模型rlhf 相关博客

想学习第一篇博客: https://huggingface.co/blog/zh/rlhf RLHF 技术分解 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，这里我们按三个步骤分解：预训练一个语言模型 (LM) ；聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；用 ......

模型博客 rlhf更新时间 2023-10-03

玩不起RLHF？港科大开源高效对齐算法木筏，GPT扩散模型都能用zz

开源大模型火爆，已有大小羊驼LLaMA、Vicuna等很多可选。但这些羊驼们玩起来经常没有ChatGPT效果好，比如总说自己只是一个语言模型、没有感情blabla，拒绝和用户交朋友。归根结底，是这些模型没有ChatGPT那么对齐（Alignment），也就是没那么符合人类用语习惯和价值观。为此 ......

木筏算法模型 RLHF GPT更新时间 2023-08-23

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

# GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。 ![](https://ai-studio-static-online.cdn.bcebos.com/29908626b6354300a949f08bb3a695a712a11d809a4146d2843ed2daad9021 ......

模型语言热潮 RLHF GPT更新时间 2023-08-21

TRL 正式推出，来训练你的首个 RLHF 模型吧！

![](https://man-archives.oss-cn-hangzhou.aliyuncs.com/goofan/202308101215960.png) 我们正式向大家介绍 TRL——Transformer Reinforcement Learning。这是一个超全面的全栈库，包含了一整套 ......

模型 RLHF TRL更新时间 2023-08-11

John Schulman：RLHF的实施与挑战 —— 通过强化学习缓解大模型输出幻觉(Hallucinations)的思考

John Schulman，研究科学家、OpenAI联合创始人；加州大学伯克利分校计算机科学博士，师从Pieter Abbeel。现领导OpenAI强化学习团队。本文是对John Schulman(下文中简称为JS)的报告《Reinforcement Learning from Human Fee ......

Hallucinations 幻觉 Schulman 模型 John更新时间 2023-08-03

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF

# 人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF # 1.奖励模型的训练 ## 1.1大语言模型中奖励模型的概念在大语言模型完成 SFT 监督微调后，下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数，能对当前的状态刻画一个分数，来说明这个状 ......

模型人工智能人工智能 RLHF更新时间 2023-07-17

大模型入门（七）—— RLHF中的PPO算法理解

本文主要是结合PPO在大模型中RLHF微调中的应用来理解PPO算法。一、强化学习介绍 1.1、基本要素环境的状态S：t时刻环境的状态$S_{t}$是环境状态集中某一个状态，以RLHF中为例，序列$w1,w2,w3$是当前的状态。个体的动作A：t时刻个体采取的动作$A_{t}$，给定序列$w1, ......

算法模型 RLHF PPO更新时间 2023-07-14

RLHF技术在情感分析中的应用：捕捉情感世界中的真实情感”

[toc] 情感分析技术在人工智能领域中越来越受到关注，因为它可以帮助我们更好地理解人类情感和情感表达。在这篇文章中，我们将探讨使用RLHF技术在情感分析中的应用，以捕捉情感世界中的真实情感。 ## 1. 引言随着人工智能技术的发展，情感分析技术已经成为人工智能领域的一个重要方向。情感分析可以帮助 ......

情感情感世界世界技术 RLHF更新时间 2023-06-17

RLHF技术在智能金融中的应用：提高金融智能化和自动化水平”

[toc] 引言随着人工智能技术的不断发展和普及，金融智能化和自动化水平也得到了显著提高。在这个时代，RLHF(Reinforcement Learning with Human Feedback)技术已经成为了智能金融中不可或缺的一部分。本文将介绍RLHF技术在智能金融中的应用，为读者提供更深入 ......

智能金融水平技术 RLHF更新时间 2023-06-17

RLHF技术在智能娱乐中的应用：提高娱乐智能化和自动化水平”

[toc] 随着人工智能技术的不断发展，智能娱乐成为了人们越来越关注的话题。在智能娱乐领域中，RLHF技术的应用正在逐渐显现。本文将介绍RLHF技术在智能娱乐中的应用，提高娱乐智能化和自动化水平。首先，我们需要了解什么是RLHF技术。RLHF(Reinforcement Learning with ......

智能水平技术 RLHF更新时间 2023-06-16

RLHF技术在智能金融中的应用：提高金融智能化和自动化水平”

智能金融水平技术 RLHF更新时间 2023-06-15

RLHF技术在情感分析中的应用：捕捉情感世界中的真实情感”

情感情感世界世界技术 RLHF更新时间 2023-06-15

为什么RLHF中，PPO需要Critic模型而不是直接使用RewardModel

在强化学习中，PPO（Proximal Policy Optimization）算法是一种基于策略梯度的方法，用于训练强化学习智能体。PPO算法中引入Critic模型的主要目的是为了提供一个价值估计器，用于评估状态或状态动作对的价值，从而辅助策略的更新和优化。虽然奖励模型（Reward Model ......

RewardModel 模型 Critic RLHF PPO更新时间 2023-06-14

Reward Modelling（RM）and Reinforcement Learning from Human Feedback（RLHF）for Large language models（LLM）技术初探

Reward Modelling（RM）and Reinforcement Learning from Human Feedback（RLHF）for Large language models（LLM）技术初探 ......

Reinforcement Modelling Learning Feedback language更新时间 2023-06-07

RLHF

RLHF不擅长推理、事实等固定答案的优化，擅长自由度更高的生成；RLHF的上限取决于预训练模型本身的能力，对于多项选择这种需要推理、知识和输出格式固定的任务，预训练后的GPT-4[2]能到73.7%，RLHF之后只到了74%，单独看很多任务还有下降。 ......

RLHF更新时间 2023-05-30

解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

RLHF是针对有用，无害，事实性等原则，把模型输出和人类偏好进行对齐的一种方案。以OpenAI为基础，本章会对比DeepMind, Anthropic在RLHF步骤中的异同，试图理解RLHF究竟做了啥 ......

偏好 RLHF-OpenAI 183 Anthropic DeepMind更新时间 2023-05-23

大模型入门（六）—— RLHF微调大模型

一、RLHF微调三阶段参考：https://huggingface.co/blog/rlhf 1）使用监督数据微调语言模型，和fine-tuning一致。 2）训练奖励模型奖励模型是输入一个文本序列，模型给出符合人类偏好的奖励数值，这个奖励数值对于后面的强化学习训练非常重要。构建奖励模型的训练数 ......

模型 RLHF更新时间 2023-05-06

DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍

DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述近日来，ChatGPT及类似模型引发了人工智能（AI）领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT类模型具有惊人的泛用性，能够执行归纳、编程、翻译等任务，其结果与人 ......

DeepSpeed 模型 ChatGPT Chat RLHF更新时间 2023-04-19

在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

我们很高兴正式发布 trl 与 peft 的集成，使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调！在这篇文章中，我们解释了为什么这是现有微调方法的有竞争力的替代方案。请注意， peft 是一种通用工具，可以应用于许多 ML 用例，但它对 RLHF 特别有趣，因为这种方法特别需 ......

显卡 RLHF LLMs 20B 24更新时间 2023-03-23

共29篇 :1/1页 首页上一页1下一页尾页