爬虫 规则 分布式 中间件
Linux+docker+MySQL修改加密规则
https://www.cnblogs.com/atuotuo/p/9402132.html 方法一:仅修改当前容器内的MySQL,并非长久之计 进入容器 docker exec -it 容器id /bin/bash 登录 mysql -u root -p 切换数据库 use mysql; 查看当前 ......
爬虫常用写法和用法
1、查找所有:结果 = re.findall(正则, 字符串) => 返回列表,用法:r""专业写正则的。 没有转义的烦恼,result = re.findall(r"\d+", "我有1000万,不给你花,我有1块我给你") 2、结果 = re.finditer(正则, 字符串) => 返回迭代器 ......
Python爬虫:实现爬取、下载网站数据的几种方法
使用脚本进行下载的需求很常见,可以是常规文件、web页面、Amazon S3和其他资源。Python 提供了很多模块从 web 下载文件。下面介绍 一、使用 requests requests 模块是模仿网页请求的形式从一个URL下载文件 示例代码: import requests url = 'x ......
分布式锁,怎么个事?
平时的工作中,由于生产环境中的项目是需要部署在多台服务器中的,所以经常会面临解决分布式场景下数据一致性的问题,那么就需要引入分布式锁来解决这一问题。 本文参考文章: https://www.cnblogs.com/niceyoo/p/13711149.html https://cloud.tence ......
Microsoft SQL Server 2012 SP4 中可以通过一些技术和方法来实现分布式数据库的功能
Microsoft SQL Server 2012 SP4 中,虽然没有内置的原生支持分布式数据库的功能,但您仍然可以通过一些技术和方法来实现分布式数据库的功能。下面我将介绍几种常见的实现方式: 分布式查询 您可以使用 SQL Server 的链接服务器功能,建立到其他 SQL Server 实例的 ......
var reg=/^0.2$/; //以0开头,以2结尾,中间可以是\n以外的任意字符
:出现零到多次 +: 出现一到多次 ?:出现零次或者一次 . : 除了\n以外的任意字符 {n} : 出现n次 {n,} : 出现n到多次 {n,m} : 出现n到m次 var reg=/^0.2$/; //以0开头,以2结尾,中间可以是\n以外的任意字符 {n} n次 {1,3} 1~3次 {1, ......
爬虫五
打码平台 2、登录某些网站,会有验证码 》想自动破解 数字字母:python模块:ddddocr 计算题,成语题,滑块。。。:第三方打码平台,人工操作 2、打码平台 云打码,超级鹰 3 、咱们破解网站登录的思路 使用selenium 》打开网站 》(不能解析出验证码地址) 》使用截图 案例 超级鹰a ......
爬虫-mysql-工具
MySQL数据库 一、MySQL数据库的介绍 1、发展史 1996年,MySQL 1.0 2008年1月16号 Sun公司收购MySQL。 2009年4月20,Oracle收购Sun公司。 MySQL是一种开放源代码的关系型数据库管理系统(RDBMS),使用最常用的数据库管理语言--结构化查询语言( ......
【爬虫】爬取网站图片的url学习记录,xpath用法
这次是想爬取一个壁纸网站里面图片的url,这里使用了lxml库,先上脚本 import requests from lxml import etree url="https://pic.netbian.com/4kdongman/" domain="https://pic.netbian.com/" ......
一文带你零基础深入理解随机变量,概率分布与统计量
一. 随机事件与概率 1.1 随机现象 在自然界和人类活动中,发生的现象多种多样,比如下列这些现象: 1. 偶数能被2整除 2. 光的速度是常数 3. 一家门店一天之内的订单量 4. 一个新生儿可能是男生也可能是女生 5. AB实验存在对照组和实验组 6. 李华上厕所的时间 不难发现,其中①②⑤这类 ......
Seata分布式事务框架-AT模式与TCC模式介绍
Seata AT事务方案Seata 的 AT 模式(Automatic Transaction)是一种无侵入的分布式事务解决方案。下面结合具体业务场景来分析其执行的原理。 业务场景订单系统 当用户下订单时,执行以下三步流程: 订单系统保存订单 订单系统调用库存服务,减少商品库存 订单系统调用账户服务 ......
Sentinel 使用 Nacos 持久化流控规则
早期大家都使用 netflix 公司的 Hystrix 组件,通过编写代码实现对微服务接口的限流、熔断、隔离等保护措施,由于 Hystrix 组件不再更新迭代,逐渐被大家抛弃。当前大家基本上都使用阿里的 Sentinel 技术实现对微服务接口的访问监控和保护,其相对于 Hystrix 组件来说,最大 ......
爬虫四
selenium等待元素加载 代码操作非常快,有的还没加载,找不到就会报错 设置等待:显示等待,隐式等待 bro.implicitly_wait(10) 找某个标签,如果找不到,最多等待10s selenium元素操作 点击操作 click() 写文字 send_keys(‘内容’) 清空文字 cl ......
阿里规则引擎 QLExpress 学习
maven依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>QLExpress</artifactId> <version>3.2.0</version> </dependency> 简单运算表达式 ExpressRunner ru ......
深入Go底层原理剖析和源码解读,重写Redis中间件实战积累大型项目经验
Go 中的runtime 类似 Java的虚拟机,它负责管理包括内存分配、垃圾回收、栈处理、goroutine、channel、切片(slice)、map 和反射(reflection)等。Go 的可执行文件都比相对应的源代码文件要大很多,这是因为 Go 的 runtime 嵌入到了每一个可执行文件 ......
分布式任务调度(00)--Quartz
1 任务调度整体流程 2 组件 调度器 :工厂类创建Scheduler,根据触发器定义的时间规则调度任务 任务:Job表示被调度的任务 触发器:Trigger 定义调度时间的元素,按啥时间规则执行任务。一个Job可被多个Trigger关联,但是一个Trigger 只能关联一个Job import o ......
这次弄下k8s 分布式多机测试,这次专门多创建了几个机器进行安装,实时监控机器状态
k8s 实机分布式测试,这次弄一下这个,上次弄的是单机版本的minikube, 在单机上minikube替代了kubectl的工作,在单机上可以创建多个布署等,实际使用会有多个系统,分布式才是正常生产时发按它效率的时间。 k8s说明上要求机器要有2g内存,这里我创建了四个vm, 每个4g内存,这样可 ......
21.6 Python 构建ARP中间人数据包
ARP中间人攻击(ARP spoofing)是一种利用本地网络的`ARP`协议漏洞进行欺骗的攻击方式,攻击者会向目标主机发送虚假`ARP`响应包,使得目标主机的`ARP`缓存中的`IP`地址和`MAC`地址映射关系被篡改,从而使得目标主机将网络流量发送到攻击者指定的虚假`MAC`地址。攻击者可以在不... ......
【发布】DDD 工程脚手架 + 一键安装分布式技术栈环境!
作者:小傅哥 博客:https://bugstack.cn 沉淀、分享、成长,让自己和他人都能有所收获!😄 大家好,我是技术UP主小傅哥。 写了那么多案例工程,开发了那么多技术项目。那小傅哥做的这些案例和项目是每一个都要手动创建一遍吗?🤔 如果不是一个个都手动创建,那么有什么提效工具吗? 不用, ......
Python爬虫与pyecharts可视化入门
python爬虫与pyecharts数据可视化 一、爬虫介绍 1、爬虫定义 网络爬虫: 又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 通俗理解: 简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟 ......
多元高斯分布/高斯过程全解析
大纲 公式推导 参数估计 高斯分布运算 高斯分布性质 高斯过程(Gaussian process) 高斯混合模型 概念区分 边缘分布(marginal distribution)和联合分布 概率密度函数和概率分布函数 1. 多元高斯分布公式推导 首先我们知道一元高斯分布是:\(N(x|u,\sigm ......
爬虫三
搜索文档树 1 、find_all :找所有 列表 2、find 找一个 Tag类的对象 find和find_all 五种过滤器(字符串、正则表达式、列表、True、方法): 字符串 可以按标签名,可以按属性,可以按文本内容 无论按标签名,按属性,按文本内容 都是按字符串形式查找: p=soup.f ......
爬虫之抓取js生成的数据
有很多页面,当我们用request发送请求,返回的内容里面并没有页面上显示的数据,主要有两种情况,一是通过ajax异步发送请求,得到响应把数据放入页面中,对于这种情况,我们可以查看关于ajax的请求,然后分析ajax请求路径和响应,拿到想要的数据;另外一种就是js动态加载得到的数据,然后放入页面中。 ......
node.js快死了!Bun 1.0 正在改变 JavaScript 游戏规则
在进一步讨论之前,我们需要解释什么是 javascript 运行时以及为什么我们应该关心它的速度。 想象一下,你用JavaScript写了一个故事,你需要有人大声朗读。JavaScript 运行时就像那个友好的叙述者,让你的故事栩栩如生!这是一个特殊的环境,你的JavaScript故事被阅读和表演出 ......
分布式图算法Pregel
最近看了Google的Pregel论文,图算法有一些经典且不可被替代的应用场景,如社交网络,相互引用等。但是在单个结点上的运算量往往过少,注重的是消息传播和逻辑处理,而不是单纯的大规模计算。虽然已经过去了十几年,但是其中的messsage passing,combiner,aggregator,gr ......
爬虫+钉钉机器人提示
一,选择的框架是django 在 Django 项目中创建一个 app; 在 app 中创建一个名为 spider 的目录,用于存放爬虫代码; 在 spider 目录下创建一个名为 models.py 的文件,用于定义数据库模型; 在 models.py 中定义需要存储的字段,例如链接地址、链接标题 ......
理论讲解 -分布式系统
分布式系统常见理论讲解 分布式系统是指由多个节点通过网络进行通信和协作的系统,它具有高可用性、高扩展性、高性能等优点,但也面临着一些挑战,如数据一致性、容错性、负载均衡等。为了解决这些问题,分布式系统设计出现了一些经典的理论和方法,如 CAP 理论、BASE 理论、一致性等。 CAP 理论 CAP ......
Java系列:Java8 新特性:强大的 Stream API(创建 Stream、中间操作、终止操作)
Java8中有两大最为重要的改变。第一个是 Lambda 表达式;另外一个则是 Stream API。 Stream API ( java.util.stream) 把真正的函数式编程风格引入到Java中。这是目前为止对Java类库最好的补充,因为Stream API可以极大提供Java程序员的生产 ......