爬虫 语法 笔记robots

如何利用代理IP优化网络爬虫

网络爬虫会自动扫描互联网,搜集大量数据并将它们组织起来。但是,许多网站都采取了反爬虫策略,限制了网络爬虫的活动。这时候,代理IP就起到了关键作用。代理IP可以让网络爬虫“变身”为不同的可以合法访问网站的用户,从而绕过网站的反爬虫机制,保护了网络爬虫的稳定运行。而且,使用代理IP还可以隐藏真实IP地址 ......
爬虫 网络

C#路径(\;.\;..\;..\..\)测试笔记

static void Main(string[] args) { /*文件路径分为绝对路径和相对路径。完整描述文件位置的路径就是绝对路径,相对于目标的位置就是相对路径。 * 绝对路径:是从盘符开始的路径,形如 C:\windows\system32\cmd.exe *相对路径:是从当前路径开始的路 ......
路径 笔记

大神之路-起始篇 | 第4章.计算机科学导论之【数据运算】学习笔记

主要讲解存储在计算机中的数据上是如何进行运算,数据的运算可以分为三大类:算术运算、移位运算和逻辑运算。 逻辑运算:计算机中的数据是以位模式存储的,逻辑运算是指那些应用于模式中的一个二进制位,或在两个模式中相应的两个二进制位的相同基本运算,说人话就是分别针对二进制位进行与、或、非、异或等操作。 移位运... ......
大神 导论 计算机 笔记 科学

scrapy通用爬虫及反爬技巧

一、通用爬虫 通用爬虫一般有以下通用特性: 爬取大量(一般来说是无限)的网站而不是特定的一些网站。 不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的。相反,其会限制爬取的时间及数量。 在逻辑上十分简单(相较于具有很多提取规则的复杂的spider),数据会在另外的阶段进行后处理(po ......
爬虫 技巧 scrapy

读SQL进阶教程笔记09_HAVING上

1. HAVING子句的用法 1.1. 学习SQL时最大的阻碍就是我们已经习惯了的面向过程语言的思考方式(排序、循环、条件分支、赋值等) 1.2. 只有习惯了面向集合的思考方式,才能真正地学好它 1.3. 帮助我们顺利地忘掉面向过程语言的思考方式并理解SQL面向集合特性的最为有效的方法 1.4. H ......
进阶教程 笔记 教程 HAVING SQL

Java基础语法

Java基础语法 注释 平时我们编写代码,在代码量比较少的时候,我们还可以看懂自己写的,但是当项目结构一旦复杂起来,我们就需要用到注释了。 注释并不会被执行,是给我们写代码的人看的。 书写注释是一个非常好的习惯 平时写代码一定要注意规范 Java中的注释有三种: 单行注释:只能注释一行文字,以“// ......
语法 基础 Java

001-java-markdown语法

typora中的markdown语法 一、标题: 最多支持六级标题 文字,或者command+0~6调整标题级别 command +/-调整级别 一级标题:markdown学习 二级标题 三级标题 四级标题 五级标题 六级标题 二、字体 Hello,world! 粗体字:两边加2个** /comma ......
java-markdown 语法 markdown java 001

M3U8流视频数据爬虫

HLS技术介绍 现在大部分视频客户端都采用HTTP Live Streaming,而不是直接播放MP4等视频文件(HLS,Apple为了提高流播效率开发的技术)。HLS技术的特点是将流媒体切分为若干【TS片段】(比如几秒一段),然后通过一个【M3U8列表文件】将这些TS片段批量下载供客户端播放器实现 ......
爬虫 数据 视频 M3U8 M3

webpack 学习笔记1(入门)

使用webpack的版本为v4.46.0,改版本为V4的最后一版本,暂时没考虑使用webpack5。 #1 安装 npm install -g webpack@4.46.0 npm install -g webpack-cli@3.3.12 翻译 搜索 复制 ......
webpack 笔记

Java笔记(13) 简单的Lambda表达式

lambda表达式在jdk1.8引入,属于函数式编程,可以在特定的场景中省去很多没有意义的代码,只留下核心逻辑,使代码看起来更简洁。 函数式接口 任何接口,如果只包含唯一一个抽象方法,那么它就是一个函数式接口。对于函数式接口,可以通过lambda表达式来创建该接口的对象。 lambda表达式的推导 ......
表达式 笔记 Lambda Java 13

Django笔记十八之save函数的继承操作和指定字段更新等实例方法

本文首发于微信公众号:Hunter后端 原文链接:Django笔记十八之save函数的继承操作和指定字段更新等实例方法 这篇笔记主要介绍 Django 一些实例方法。 什么是 实例,我们知道通过filter() 的一些筛选方法,得到的是 QuerySet,而 QuerySet 取单条数据,通过索引, ......
字段 函数 实例 笔记 方法

C++ thread 源码阅读笔记

thread类解析 构造函数 thread() 无参构造,会创建一个空的线程对象。 thread(FunctionCallback, ...Args) 创建并开启一个线程,线程任务就是参数里的回调函数。 thread(thread&& other) 移动构造,具体请参照C++的移动语义。 PS: t ......
源码 笔记 thread

软考笔记(9)--计算机组成原理3--处理器

一、CPU的整体结构 CPU是由控制器和运算器两大部分组成,控制器是整个系统的指挥中心,在控制器的控制之下,运算器、存储器和输入输出设备等部件构成了一个整体。 1.1、CPU的功能 计算机的工作过程就是计算机中程序的执行过程,首先将程序和原始数据预先通过输入设备送到主存储器中存储起来,执行时计算机按 ......
处理器 原理 计算机 笔记

字符串学习笔记(一)

一些定义: 1. Border: 如果一个字符串的某个前缀同与它长度相同的后缀完全相同,就称这个前缀(后缀)是这个字符串的一个Border. 2. 周期:如果一个字符串s满足对于任意的p < i $\leqslant$ |s|, s[i] = s[i - p], 则称p是字符串s的周期,一个字符串可 ......
字符串 字符 笔记

# Java笔记(12) 静态代理

静态代理可以在不改变原有代码的情况下,增加新的功能和操作,对原有对象进行扩展。 静态代理要求真实对象和代理对象都实现同一个接口,由代理对象代理真实角色的接口实现,并在实现前后增加新的操作。 public class StaticProxy{ public static void main(Strin ......
静态 笔记 Java 12

vue3创建项目笔记

E:\vue3学习>npm init vite@latest vite-blog -- --template vueNeed to install the following packages: create-vite@4.2.0Ok to proceed? (y) y Scaffolding pr ......
笔记 项目 vue3 vue

SQLlabs less1-10通关笔记

SQLlabs 通关笔记 mysql数据结构 在练习靶场前我们需要了解以下mysql数据库结构,mysql数据库5.0以上版本有一个自带的数据库叫做information_schema,该数据库下面有两个表一个是tables和columns。tables这个表的table_name字段下面是所有数据 ......
SQLlabs 笔记 less1 less 10

在线商城爬虫 带爬取记录 以11TREET 为例

整体思路 第一步 抓取全部的列表页链接 第二步 抓取每个列表页的商品总数,页数 第三步 单个列表页 进行分业 抓取商品价格 第四步 单个列表页抓取完成后 输出商品数据并在本地文件记录本次抓取 最后一步 合并各个列页表抓取的商品数据 第一步 爬取的网站,获得分类信息 https://global.11 ......
爬虫 在线商城 商城 TREET 11

Java笔记(11) 多线程

Java原生支持多线程,主要通过以下四种方式实现多线程: 继承Thread类 实现Runnable接口 实现Callable接口 线程池 继承Thread类 通过创建Thread类的子类,并重写run()方法,通过调用start()方法启动线程。 public class TestThread ex ......
线程 笔记 Java 11

二、linux学习笔记

二、Linux学习笔记命令:命令本体command+选项,控制命令的行为细节[-options]+参数,控制命令的指向目标[parameter)] 1、ls命令,作用是列出目录下的内容,语法如下:ls[-a-l-h][linux路径]ls -l -a ls -la ls -al三种写法都是一样的,同 ......
笔记 linux

RocketMQ笔记

消息队列 RocketMQ 是阿里巴巴集团基于高可用分布式集群技术,自主研发的云正式商用的专业消息中间件,既可为分布式应用系统提供异步解耦和削峰填谷的能力,同时也具备互联网应用所需的海量消息堆积、高吞吐、可靠重试等特性,是阿里巴巴双 11 使用的核心产品。 6月初偶然从朋友那里得到一份纯手打“Roc ......
RocketMQ 笔记

BiSyn GAT+:用于基于方面的情绪分析的双语法感知图形注意力网络

基于方面的情绪分析(ABSA)是一种细粒度的情绪分析任务,旨在调整方面和相应的情绪,以进行特定方面的情绪极性推断。这很有挑战性,因为一个句子可能包含多个方面或复杂的(例如,条件关系、协调关系或对抗关系)。近年来,利用图神经网络挖掘依赖语法信息已成为最流行的趋势。尽管它取得了成功,但严重依赖依赖树的方 ......
语法 注意力 图形 情绪 方面

TypeScript 学习笔记 — 自定义类型:部分属性可选,反选 key,求对象交差并补集等(十三)

上文中介绍了 对象操作的内置类型的使用,本文介绍几个基于内置类型,扩展的自定义类型,(类型名称自定义的) 将部分属性变为可选属性 实现思路:先将 name 属性挑出来变为可选的 & 除了 name 属性的 // 有时处理类型之后,对象类型结构不明显。只是简单做一个映射,并未其他意义。 type Co ......
TypeScript 属性 对象 类型 部分

王道C语言笔记NOTE-中级阶段Note8-排序算法真题实战

一、2016年43题 1、问题描述 2、答案解析 (1)、算法的基本设计思想 由题意知,将最小的n/2个元素放进A1中,剩余元素放在A2中,分组结果即可满足题目要求。 仿照快速排序的思想,基于枢轴把n个整数划分成两个子集,根据划分后枢轴所处的位置i分别处理: ①、若i=n/2,则分组完成,算法结束; ......
王道 真题 算法 实战 阶段

高并发笔记

为什么用分布式架构 处理,高并发,高可用,大数据 高并发事前: 添加硬件资源 高并发事中: 故障转移、熔断、限流 大数据特点: 读多写少 关键的瓶颈是数据库,处理方案:按读写拆分数据库、按业务拆分数据库、按节点增加数据库 生产库进行设计:数据进行增删改的操作,和少量的试试操作 查询库进行设计: 存放 ......
笔记

思考 TypeScript namespace,复习 class 语法

前言 据我所知,早期 JavaScript 没有 class 语法,很多都是函数,即便是现在的 class 本质上也是一个函数。在这里不说函数与 class 之间的关系和区别。 下面将从 class 语法上讲解,阐述为什么有 class 以及作用; 对 class 语法进行了探讨之后,再思考 Typ ......
语法 TypeScript namespace class

【日常运维笔记】linux系统使用grep命令查找文件,并用vim编辑文件

问题描述:linux系统中查找含有某个字符的文件,进行编辑修改 1.使用grep命令查找到符合条件的文件 命令格式:grep ‘匹配内容’ 文件路径 显示方式(-r -n) -i:忽略大小写进行匹配。-v:反向查找,只打印不匹配的行。-n:显示匹配行的行号。-r:递归查找子目录中的文件。-l:只打印 ......
文件 命令 笔记 系统 linux

自学Python爬虫笔记(day3)

环境python3.9版本及以上,开发工具pycharm 数据解析提供了4种解析方式:re解析、xpath解析、bs4解析、pyquery解析 首先初步入门学习了爬虫方面的正则表达式。 正则表达式(regular expression)是一种使用表达式的方式对字符串进行匹配的语法规则。使用正则表达式 ......
爬虫 笔记 Python day3 day

动态开点线段树&线段树合并学习笔记

动态开点线段树 使用场景 $4 \times n$ 开不下。 值域需要平移(有负数)。 什么时候开点 显然,访问的节点不存在时(只会在修改递归时开点)。 trick 区间里面有负数时,$mid = (l + R - 1) / 2$。 防止越界。 例如区间 $[-1,0]$。 开点上限 考虑到 upd ......
线段 笔记 动态 amp

树上启发式合并学习笔记

前言 树上启发式合并(DSU on tree),是一种启发式算法,多用于解决子树询问问题。 和莫队很像,只要支持在 $O(T(n))$ 加入 / 删除一个点对答案的贡献,就可以在 $O(n\log n \cdot T(n))$ 内求出所有节点的子树的答案。 流程 例题 经典例题——树上数颜色: 给出 ......
笔记