爬虫 语法 笔记robots

关于Python爬虫的一些总结

作为一名资深的爬虫工程师来说,把别人公开的一些合法数据通过爬虫手段实现汇总收集是一件很有成就的事情,其实这只是一种技术。 初始爬虫 问题: 什么是爬虫? 网络爬虫是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。 爬虫有什么用? ① 网络数据采集 ② 大数据分析 ③ 网页分析 什么工作原理? ......
爬虫 Python

极光笔记 | 如何在Shopify中使用EngageLab (下)

Sendgird发布的《2022 Global Messaging Engagement Report》中揭示了世界各地的用户更喜欢用哪种方式与品牌互动,结论是:“电子邮件仍然是第一名(短信紧随其后)”。4800多名受访者中,有18%的人将电子邮件列为他们最常用的使用的三大渠道之一;77%的收件人每 ......
极光 EngageLab Shopify 笔记

一个灵活的 nodejs 爬虫库 —— x-crawl

x-crawl x-crawl 是一个灵活的 nodejs 爬虫库。可批量爬取页面、批量网络请求、批量下载文件资源、轮询爬取等。用法灵活和简单,对 JS/TS 开发者友好。 如果你喜欢 x-crawl ,可以给 x-crawl 存储库 点个 Star 支持一下,不仅是对它的认可,同时也是对开发者的认 ......
爬虫 x-crawl nodejs crawl

【uniapp】学习笔记day03 | 页面制作

一、开发层级结构介绍 page.json 对uniapp进行全局配置,决定页面文件的路径、窗口样式、原生的导航栏、底部的原生tabbbar manifest.json 应用的配置文件,指定应用的名称、图标、权限 App.vue 页面入口文件,可以调用应用的生命周期函数 main.js 初始化vue实 ......
页面 笔记 uniapp day 03

4.10 学习笔记之二分答案

啊,我不会二分。刚学。 二分答案,可以理解为二分答案所在的区间。 一般能使用二分答案的要求:1.有界性。2.具有单调性。 对于有界性:理解为答案一定在一个区间范围内,是固定的。 对于单调性:显然。这样才能找最优解。 简单来说,二分答案的题目,会出现“最小值最大” or “最大值最小” 的字眼。 思考 ......
答案 笔记 4.10 10

python网络爬虫

一、爬虫的基本思路 打开网页:requests / urllib 找到需要的信息:标签 / xpath / jsonpath / ... 获取和存储信息:json文档 二、网页的分类 1. 静态网页 源代码中包含需要的信息 国务院办公厅关于印发"十四五"国民健康规划的通知 爬取方式:直接从源代码中提 ......
爬虫 python 网络

笔记一:简单小米官网静态首页制作

学习前端也有一段时间了,这段时间学习了html、css,于是想做一个页面来巩固一下,就选择了小米的官网首页,制作了一个简单的静态页面。 运行截图: 代码: html代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> < ......
小米 静态 笔记

ST入门笔记1

ST按钮点动控制灯的应用//梯形图 内嵌ST框插入(Ctrl+B)//ctrl+鼠标滚轮可以放大缩小画面//键盘调到大写//:=1; END_IF; 自动缩进功能//IF M0=1 THEN Y0:=1;END_IF;当 M0等于1时,Y0永久置1//新建触摸屏//位 点动 按下为1 松开为0//F ......
笔记

Spring5课堂笔记

Spring5 1.、Spring 1.1、简介 Spring ——> 春天,为开源软件带来了春天 2002,首次推出了Spring框架的雏形:interface21框架! Spring框架以interface21框架为基础,经过重新设计,并不断丰富其内涵,于2004年3月24日发布了1.0正式版 ......
课堂笔记 课堂 Spring5 笔记 Spring

庄懂的技术美术入门01笔记

前言:unity的全英文对我真的是劝退XD 这算是真正意义上的第一篇博客,是以笔记的形式,主要是怕自己忘了,或许之后不定时还会对笔记内容进行总结再水一篇 1.一般简单的渲染过程 模型——输入结构——顶点shader——输出结构——像素shader——渲染结果 ①模型——输入结构 将原模型转化为可视化 ......
美术 笔记 技术

【笔记】线段树优化建图

正常情况下,我们给两个点连m条边,时间复杂度为$O(m)$ 当一个点给长度为n的区间内的每个点连m条边时,时间复杂度就变成了$O(n*m)$ 当一个长度为n的区间内的每个点向另一个长度为n的区间内的每个点连m条边时,时间复杂度就变成了$O(n^2 *m^2)$ 显然,这样连边效率很低,这时候就可以使 ......
线段 笔记

java并发编程(1):Java多线程-基本线程类-基础知识复习笔记

多线程只有一个目的,那就是更好的利用cpu的资源,基本线程类指的是Thread类,Runnable接口,Callable接口,传统java多线程编程 需要注意的 线程安全 线程同步 线程通信 synchronized volatile ……一锅乱炖 ......
线程 基础知识 基础 笔记 知识

Shell语法

#3.1 概论 终端可以看做逐条执行的shell脚本,Linux默认使用bash,脚本文件第一行必须为 #! /bin/bash 可通过两种方式执行shell脚本 解释器执行:bash xxx.sh 作为可执行文件执行 添加执行权限chmod +x xxx.sh 执行./xxx.sh #3.2 注释 ......
语法 Shell

软考笔记(9)--计算机组成原理4--总线系统

前言 总线是多个系统部件之间进行数据传输的公共通路。所谓总线就是指能为多个功能部件服务的一组公用信息线,并且能够分时地发送和接收信息。通过总线连接,计算机可在各系统部件之间实现传输地址、数据和控制信息等操作。 计算机系统中存储器、CPU等功能部件之间必须互联才能组成计算机系统。部件之间可以通过单读的 ......
总线 原理 计算机 笔记 系统

Python学习笔记

Python学习第一天 DAY1: 1.1 基础知识 1、print输出函数 # print函数 # 输出数字 print(520) print(98.5) # 输出字符串 print('hello') print("hello") # 输出含有运算符的表达式 print(1+2) # 将数据输出到 ......
笔记 Python

AMBA总线(3)—— AHB学习笔记

前面学习APB总线时,由于内容不多就直接将APB4手册翻译了下。到了AHB总线再这样学习就不好了,一是逐句翻译太累人,二是原文翻译过来划不清重点。因此APB总线以学习笔记的形式记录下来,但其实大多数也就是手册的翻译和理解。 1 AHB特点 AHB协议相比APB协议更加复杂,性能更加优越,手册上也清楚 ......
总线 笔记 AMBA AHB

协同文档:OT与CRDT实现协同编辑笔记

解决文本文档的协同编辑有两种方案,一种是 Google Doc 使用的 Operational transformation (OT),还有一种就是 Atom teletype 使用的 Conflict-free replicated data type (CRDT)。 ......
文档 笔记 CRDT

.NET Core 离线 生成 Tron 波场私钥和地址笔记

NuGet 引入依赖库 PM> Install-Package Tron.Wallet.Net 随机生成私钥和对应的地址 using Tron.Wallet.Net; namespace ConsoleApp1 { internal class Program { static async Task ......
地址 笔记 Core Tron NET

笔记一(小米官网首页的简单制作)

学习了一段时间html和css,想巩固一下,于是就找了个小米官网首页,准备自己动手写写。 运行结果: 相关代码: html: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta http-equiv="X-UA-C ......
小米 笔记

【 2023 】近期一些编译调试开发 Android7&9 系统的笔记( h616 / imx8m / rk3399 )

主要就记录一下自己食用过程中遇到的一些问题吧,板子有新有旧,但都差不多。 待整理呢。 https://stackoverflow.com/questions/67363030/rebuild-android-code-with-error-ssl-error-when-connecting-to-t ......
Android7 Android 笔记 系统 imx8m

Django笔记二十之手动编写migration文件

本文首发于公众号:Hunter后端 原文链接:Django笔记二十之手动编写migration文件 前面介绍过,migration 文件主要记录的是 Django 系统 model 的变化,然后通过 migrate 命令将变化适配到数据库中。 比如在某个 application 下新增了某张表,或者 ......
手动 migration 文件 笔记 Django

JavaSE02基础语法

JavaSE02基础语法 1. 注释 ​ 注释是对代码的解释和说明文字。 Java中的注释分为三种: 单行注释: // 这是单行注释文字 多行注释: /* 这是多行注释文字 这是多行注释文字 这是多行注释文字 */ 注意:多行注释不能嵌套使用。 文档注释(暂时用不到): /** 这是多行注释文字 这 ......
语法 基础 JavaSE 02

物理学习笔记

圆锥曲线&万有引力 能量式:$E = \frac{1}{2}mv^2 - G\frac{Mm}{r}$ 椭圆 数学相关 $e∈(0,1)$ $S=πab$ 第一定义:到定点的距离和为定值 第二定义:$e=\frac{动点到定点}{动点到定直线}$ ,其中定点为焦点,定直线为准线 $x=±\frac{ ......
物理学习 物理 笔记

爬虫最后一天,爬取到的数据存到mysql中,爬虫和下载中间件、加代理、cookie、header、selenium、随机生成uersagent、去重规则源码分析(布隆过滤器)、scrapy-redis实现分布式爬虫、扩展去重规则

==爬到的数据存到mysql中== class FirstscrapyMySqlPipeline: def open_spider(self, spider): print('我开了') self.conn = pymysql.connect( user='root', password="", h ......
爬虫 规则 分布式 中间件 过滤器

DX4600快速部署私有云笔记,思源笔记

DX4600快速部署私有云笔记,思源笔记 一、安装思源笔记 首先我们打开 Docker​ 管理器,进入镜像管理​。然后在镜像仓库中搜索 b3log/siyuan​,选择 latest​ 版本并下载。 ​​​​ 下载完成后,我们在本地镜像中找到刚刚下载的镜像,点击创建容器​。勾选创建后启动容器​,点击 ......
笔记 4600 DX

人月神话阅读笔记04

四月份的阅读笔记它来啦! 1、为什么巴比伦塔会失败? 巴比伦塔项目是继诺亚方舟之后的又一大工程项目,同时也是一个彻头彻尾的失败的项目,那么,这么大的工程为什么是一个彻底的失败呢? 是它没有足够的人手?没有先进的技术?没有没有质量好的材料? 不!都不是,他就是单纯地缺乏组织上的交流而已。 我们也许会惊 ......
神话 笔记

【动手学深度学习】第三章笔记:线性回归、SoftMax 回归、交叉熵损失

这章感觉没什么需要特别记住的东西,感觉忘了回来翻一翻代码就好。 3.1 线性回归 3.1.1 线性回归的基本元素 1. 线性模型 用符号标识的矩阵 $\boldsymbol{X} \in \mathbb{R}^{n\times d}$ 可以很方便地引用整个数据集中的 $n$ 个样本。其中 $\bol ......
线性 深度 损失 SoftMax 第三章

Markdown的学习笔记

Markdown学习笔记 1、Markdown的字体 字体 粗体 斜体 斜体加粗 删除线 2、Markdown的引用 引用 选择xxx 走向人生巅峰 3、Markdown的分割线 分割线 4、Markdown的图片插入 图片 插入图片 4、Markdown的超链接 超链接 点击跳转到tly的博客 5 ......
Markdown 笔记

「学习笔记」数位 DP

「学习笔记」数位 DP 意义不大的题不写了。 点击查看目录 概述 数位 DP 一般用来解决「在一个较大的区间内统计具有一定特征的数的数量」的问题。 数位 DP 一般有两种做法: 递推法:首先需要预处理出具有一定条件的数的个数,然后将上限按数位拆分开来考虑贡献。 暴搜法:直接记忆化搜索具有特定条件的数 ......
数位 笔记 DP

第二节:jsx语法深度剖析和jsx本质的探究

一. 二. 三. ! 作 者 : Yaopengfei(姚鹏飞) 博客地址 : http://www.cnblogs.com/yaopengfei/ 声 明1 : 如有错误,欢迎讨论,请勿谩骂^_^。 声 明2 : 原创博客请在转载时保留原文链接或在文章开头加上本人博客地址,否则保留追究法律责任的权 ......
语法 jsx 深度 本质