课程学习

人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF

# 人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF # 1.奖励模型的训练 ## 1.1大语言模型中奖励模型的概念 在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数,能对当前的状态刻画一个分数,来说明这个状 ......
模型 人工智能 人工 智能 RLHF

Markdown学习心得

# Markdown学习 今天是Jm第一天步入Java学习,第一次正式使用Markdown **下面我来介绍一下Markdown的用法**: ## Markdown介绍 ### 简介 Markdown 是一种轻量级的标记语言,可用于在纯文本文档中添加格式化元素。 Markdown 由 John Gr ......
Markdown 心得

决策单调性优化DP 学习笔记 & P4767 [IOI2000] 邮局 题解

## 0. 题面 ### 题目描述 高速公路旁边有一些村庄。高速公路表示为整数轴,每个村庄的位置用单个整数坐标标识。没有两个在同样地方的村庄。两个位置之间的距离是其整数坐标差的绝对值。 邮局将建在一些,但不一定是所有的村庄中。为了建立邮局,应选择他们建造的位置,使每个村庄与其最近的邮局之间的距离总和 ......
题解 邮局 笔记 P4767 4767

MarkDown学习

Markdown学习 今天是Jm第一天步入Java学习,第一次正式使用Markdown 下面我来介绍一下Markdown的用法: Markdown介绍 简介 Markdown 是一种轻量级的标记语言,可用于在纯文本文档中添加格式化元素。 Markdown 由 John Gruber 于 2004 年 ......
MarkDown

组合数学学习笔记

# 组合数学学习笔记 ## 组合数学常用公式 ### 基本公式 1. 排列: $$ A_{n}^r=\frac{n!}{(n-r)!} $$ 2. 组合: $$ C_{n}^r=\frac{n!}{r!(n-r)!} \\ \dbinom{n}{r}=\frac{n!}{r!(n-r)!} $$ # ......
数学学习 数学 笔记

图学习资料梳理

1. 网址资料 - [ ] [https://towardsdatascience.com/how-to-do-deep-learning-on-graphs-with-graph-convolutional-networks-7d2250723780](How to do Deep Learnin ......
学习资料 资料

【动态规划】动态规划基础、背包 dp 学习笔记

# 动态规划基础概念 动态规划(Dynamic Programming,dp)是一类用来解决最优化问题(和部分计数问题)的算法。动态规划的学习和题目从普及组到 IOI 都会出现。 ## 动态规划可解问题的特点 如果一个问题可以通过动态规划求解,则这个问题一定(充分不必要)满足这两个特点: ### 最 ......
动态 背包 基础 笔记 dp

RLChina理论三:强化学习基础

###强化学习基础 ![](https://img2023.cnblogs.com/blog/1577777/202302/1577777-20230203124432670-1477841240.png) ![](https://img2023.cnblogs.com/blog/1577777/2 ......
RLChina 理论 基础

RLChina2022-实践课三:强化学习算法

###MDP算法 MDP被定义为一个元组(S,A,P,r,R) S:所有状态集合 A:在环境力里面智能体所作动作的集合 P:状态转移函数P(s'|s,a),智能体在当前s下,执行a之后,转移到是s'的概率 R:奖励函数R(s,a),表示在环境s下执行动作a之后获得的立即奖励,有时候还需要知道s'是多 ......
算法 RLChina 2022

MySQL学习-DML(Data Manipulation Language)数据

回顾DDL语言: show databases; create database hufei; use hufei; create table emp(name varchar(20),age int(10)); show create table emp \G; alter table emp r ......
Manipulation Language 数据 MySQL Data

HTML简单学习

介绍:如果你想让你的网页在浏览器中正常显示,你就必须遵循HTML标签 HTML文件的后缀名是.html HTML文档介绍: Title # 标签顶部显示的内容 # head标签一般写的不是让用户看的 # body标签一般写什么内容,浏览器中就能够看到什么内容,给用户看的 ### body中常用的标签 ......
HTML

软件测试从零基础到高级测试学习技术

软件测试从零基础到高级测试学习技术 1. 基础知识: - 深入理解软件开发生命周期(SDLC)的不同阶段,如需求分析、设计、编码、测试和维护。 - 学习各种测试方法和技术,如静态测试、动态测试、回归测试和探索性测试等。 - 掌握测试文档的编写规范和最佳实践,如测试计划、测试用例规范和缺陷报告模板等。 ......
软件测试 基础 技术 软件

c语言学习5

进制转换: 1、为什么使用二进制、八进制、十六进制? 因为目前的CPU只能识别高低两种电平,只能对二进制数据进行计算 二进制虽然能够直接被计算机识别,但是不方便人去书写和记录,因此就把二进制数据转换成八进制,方便记录到文档中 随着CPU的位数的不断增加,已经到目前的64位,所以八进制不再能够满足需求 ......
语言学习 语言

Java从零基础到架构师再到运维的学习路线

Java从零基础到架构师再到运维的学习路线 1. Java基础知识: - Java语法和基本数据类型 - 面向对象编程概念:类、对象、继承、封装、多态等 - 流程控制和循环:条件语句、循环语句 - 异常处理:异常类型、try-catch-finally块 - 集合框架: - 数组:一维数组和多维数组 ......
架构 路线 基础 Java

Spring框架中的设计模式(重点学习!!!)

# Spring中的设计模式 Spring框架中用到的设计模式有很多,以下是一些常见的设计模式: 1. 依赖注入(DI)和控制反转(IoC):这是Spring框架最核心的设计模式,它允许开发人员将对象之间的依赖关系从代码中抽离出来,由Spring容器负责管理和注入对象之间的依赖关系。 2. 工厂模式 ......
设计模式 框架 重点 模式 Spring

Reactjs学习-组件

本篇是关于React的基础-组件 组件化开发一个项目有时候需要很多功能,如果将全部代码写在一个文件里面,这个文件就会很大,不利于维护,这个时候就可以考虑将一些功能或者通用的方法封装起来。React是一个视图层的框架,从UI层面,可以把一个页面拆分成多个部分,具备一定功能的,可以复用的这样一部分可以称 ......
组件 Reactjs

Docker 学习之路之私有仓库搭建

### 搭建私有仓库 > 私有仓库其实也是由镜像创建出来的容器,因此私有仓库的搭建和我们利用docker部署应用的步骤是差不多的 ``` 1. 拉取私有仓库镜像 docker pull registry 2. 启动私有仓库 docker run -id --name=registry -p 5000 ......
仓库 Docker

Python学习——Day 7

#列表 · 列表需要使用中括号[],元素之间使用英文的逗号进行分隔 · **列表的创建方式** · 使用中括号 · 调用内置函数list() ![image](https://img2023.cnblogs.com/blog/3163382/202307/3163382-20230717145605 ......
Python Day

提示词的学习路径和职业路径

第一部分:分享我的第三个客制化prompt案例 prompt价值: 客户需求: 一位高校老师(法学院),组建了一个AI学习社团,想给社团成员开发一个用于学习总结的智能机器人应用,鼓励大家通过AI整合和学习知识,激活社团成员对AI工具的理解和学习热情,经过咨询和需求分析,我接受了这个订单。 他们对pr ......
路径 职业

算法_贝叶斯网络学习_bayesian networks

###基本概念 条件概率 联合概率 边缘概率 链式法则 随机变量的独立性 条件独立性 贝叶斯规则、贝叶斯概率推理和贝叶斯网络模型。 stochastic,主要用作形容词,主要意思为“随机的;猜测的” ###R语言包 R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析 lme4广义 ......
算法 bayesian networks 网络

5.5 集成学习- XGBoost

# 1 XGBoost的基础思想与实现 ## 1.1 XGBoost pk 梯度提升树 极限提升树XGBoost(Extreme Gradient Boosting,XGB,发音/æks-g-boost/)是基于梯度提升树GBDT全面升级的新一代提升算法,也是提升家族中最富盛名、最灵活、最被机器学习 ......
XGBoost 5.5

009 学习笔记--索引

索引概述 索引结构 索引分类 索引语法 SQL性能分析 索引使用 索引设计原则 索引概述: 索引(index)是帮助MySQL高效获取数据的数据结构(有序)。 在数据库之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构上实现高级查找 ......
索引 笔记 009

jfinal 框架学习笔记-第二天 Contorller相关学习(获参,传参,render)

1.getPara获取参数 get指令简化版 所有的get取参方法: 2.传参:setAttr即给页面传参 (1)setAttr("msg","退出成功"+get("phone")+(getInt("num")+2)); 传参的时候获取的整数值是可以进行加法运算的其详情如下截图:(看网址和页面展示结 ......
Contorller 框架 笔记 jfinal render

深度学习

import os import mmcv import time import torch import numpy as np import cv2 import PIL from mmcv import Config from mmcls.apis import inference_model ......
深度

xss学习第一天

xss攻击原理:通过巧妙的方法注入恶意指令代码到网页,使用户加载并执行攻击者恶意制造的网页程序。这些恶意网页程序通常是JavaScript等,写入恶意代码后执行,可以攻击对方服务器等 一般分为反射型,存储型,dom型 反射型:发包—>后端进行—>回显 存储型:发包—>后端进行—>存储到服务器—>回显 ......
xss

APScheduler学习

**官方文档:** [https://apscheduler.readthedocs.io](https://apscheduler.readthedocs.io) # APScheduler的4个组件 - triggers【触发器】 - job stores【任务存储】 - executors【执 ......
APScheduler

Learning hard C#学习笔记——读书笔记 03

本文介绍了C#面向对象编程语言的三个基础特征:封装、继承和多态。其中,封装可以通过public、private、protected、internal等关键字来实现,目的是保护程序内部数据的完整性;继承可以帮助实现基类的内容复用,但也要结合场景使用;多态是指相同类型对象调用相同方法却表现出不同行为,使... ......
笔记 Learning hard 03

Learning hard C#学习笔记——读书笔记 02

每每说到类,不得不介绍的就是类的定义,它是一个抽象的概念,它是一个模板,制造对象的模板 ## 1.定义一个类 ```C# class Preson { // 类的成员变量 } ``` > 默认情况下,class关键字没有显式的使用`internal`修饰符来定义类,但是没有必要这样做,默认的修饰符就 ......
笔记 Learning hard 02

Reactjs学习笔记

本篇是关于React的简介 ReactJS是Facebook推出的一款前端框架,2013年开源,提供了一种函数式编程思想,拥有比较健全的文档和完善的社区,在React16的版本中对算法进行了革新,称之为React Fiber。 开发环境搭建需要nodeJS解析器,以及npm(node的包管理工具) ......
Reactjs 笔记