爬虫pytesseract requests selenium

爬虫七

持久化把数据保存到磁盘上：文件，mysql 管道使用步骤： 1、写个类：items.py,里面写字段 class CnblogItem(scrapy.Item): name = scrapy.Field() author = scrapy.Field() url = scrapy.Field() ......

爬虫更新时间 2023-11-13

selenium和playwright的区别和使用方法

Selenium和Playwright都是自动化测试工具，可以用于模拟用户操作、执行测试脚本、验证网站功能和性能等。它们的主要区别在于实现方式和功能特性。 1.实现方法 Selenium是基于浏览器驱动的自动化测试工具，支持多种编程语言和多种浏览器。Selenium通过启动浏览器驱动程序（如Chro ......

使用方法 playwright selenium 方法更新时间 2023-11-13

pip下载python软件包时报错 Could not find a version that satisfies the requirement requests_toolbelt (from versions: none)

pip下载python软件包时报错，使用了国内源等各种方法，后来才知道是电脑中打开了抓包工具；打开抓包工具后一定要关闭抓包工具，这样下载软件包就下载下来了关闭抓包工具后，下载成功了 ......

软件包 requests_toolbelt requirement satisfies requests更新时间 2023-11-13

requests模块实例

import requests import json class HandleRequest: param_type_dict = { 'form': 'application/x-www-form-urlencoded', 'data': 'application/x-www-form-urle ......

实例模块 requests更新时间 2023-11-13

[-007-]-Python3+Unittest+Selenium Web UI自动化测试之等待

selenium中，经常会出现元素还没有加载出来，浏览器找不到元素而报错的问题，设置等待是保证脚本运行的一个重要手段，常用的等待有三种--强制等待、隐式等待、显示等待。 1.强制等待 time.sleep(10) 必须等待10s，不太实用 2.隐式等待 driver.implicitly_wait( ......

Unittest Selenium Python3 Python 007更新时间 2023-11-13

爬虫中间件和下载中间件，scrapy集成selenium，源码去重规则（布隆过滤器），分布式爬虫

1 爬虫中间件和下载中间件 ⏳ 1.1 爬虫中间件(一般不用) # 第一步：写个爬虫中间件类 class ScrapyDemoSpiderMiddleware: @classmethod def from_crawler(cls, crawler): # This method is used by ......

爬虫中间件分布式过滤器源码更新时间 2023-11-13

python爬虫实战-小说爬取

python爬虫实战-小说爬取基于requests模块与lxml模块编写的爬虫，目标小说网站为 https://www.hongxiu.com/category/ 基本思路主要内容分为三个部分使用requests模块获取网页内容使用lxml模块进行网页解析将解析出来的数据存储进MySQL数 ......

爬虫实战 python 小说更新时间 2023-11-13

爬虫-python面对对象-工具

一、面向对象基础 1、面向对象思想简介软件编程就是将我们的思维转变成计算机能够识别语言的一个过程什么是面向过程？自上而下顺序执行，逐步求精其程序结构是按功能划分为若干个基本模块，这些模块形成一个树状结构；各模块之间的关系尽可能简单，在功能上相对独立每一模块内部均是由顺序、选择和循环三种基 ......

爬虫对象工具 python更新时间 2023-11-13

nginx / 引发的400 The plain HTTP request was sent to HTTPS port

问题：使用nginx反向代理并将所有80转到443，访问 https://域名/login 出现问题如下，访问 https://域名/login/ 正常显示，但是点击登录无法发送请求仅仅刷新验证码。求解答 <html> <head> <title> 400 The plain HTTP reque ......

request nginx HTTPS plain HTTP更新时间 2023-11-13

爬虫xpath学习及其使用

xpath可以解析本地的HTML也可以解析服务器的HTML，需要现在浏览安装xpath 的扩展程序，然后再编译器安装lxml库 ......

爬虫 xpath更新时间 2023-11-12

Python 潮流周刊#26：requests3 的现状

你好，我是猫哥。这里每周分享优质的 Python、AI 及通用技术内容，大部分为英文。本周刊开源，欢迎投稿。另有电报频道作为副刊，补充发布更加丰富的资讯。 🐱品牌赞助本周刊由“Python猫”出品，这是一个以 Python 技术科普和分享为主的科技自媒体，欢迎关注同名公众号。品牌合作请私信联系。 ......

requests3 requests 周刊现状潮流更新时间 2023-11-12

前端Vue框架请求后台之request封装axios

1、第一步，安装axios ，在 vue项目里面输入 npm i axios -S 2、第二步，在vue项目中创建util 工具包，在里面创建request.js文件 3、request.js文件里面的代码参考下面 import axios from 'axios'; const request ......

前端后台框架 request axios更新时间 2023-11-12

GO实现分布式爬虫—掌握go语言通道与协程项目架构设计

GO实现分布式爬虫—掌握go语言通道与协程项目架构设计 Go高并发微服务分布式 1.命令行的用户管理用户信息存储 => 内存 => 结构 [] map => 用户 ID name age tel addr [len] [] map 值类型使用string 用户添加用户的查询用户修改 // 请输 ......

爬虫分布式架构通道语言更新时间 2023-11-11

分享一个神器，可以永远告别chromedriver和chrome浏览器版本不匹配、爬虫无法运行的问题

一、下载地址：介绍地址：https://pypi.org/project/chromedriver-py/ 下载安装：pip install chromedriver-py 二、介绍 chromedriver-py 是一个Python包，提供了一个简单的接口，用于在Python项目中下载和使用Goo ......

爬虫神器 chromedriver 浏览器版本更新时间 2023-11-10

gitlab new merge request 用git命令创建

git push --push-option=<push_option> git push -o <push_option> git push -o merge_request.create -o merge_request.target=xxxx gitlab中创建合并分支请求都是在网页中做的，g ......

命令 request gitlab merge git更新时间 2023-11-10

python3 requests 请求https报错: urllib3.exceptions.SSLError: [SSL: SSLV3_ALERT_HANDSHAKE_FAILURE] sslv3 alert handshake failure (_ssl.c:992)

正文代码示例： #-*- coding:utf-8 -*- import requests url = "https://tst.com" res = requests.get(url=url, verify=False) print(res.content) 运行就报错： urllib3.exc ......

SSLV3_ALERT_HANDSHAKE_FAILURE exceptions HANDSHAKE handshake SSLError更新时间 2023-11-10

selenium 安装及使用

一：序言 selenium 是一个web自动化工具 1.自动化测试通过它，我们可以写出自动化程序，模拟浏览器里操作web界面。比如点击界面按钮，在文本框中输入文字等操作。 2.获取信息(就是爬虫) 而且还能从web界面获取信息。比如招聘网站职位信息，财经网站股票价格信息等等，然后用程序进行 ......

selenium更新时间 2023-11-09

selenium定位元素被页面遮挡问题

问题：在定位页面列表某个元素时，因数据较多必须滑动滚动条才能看到下面数据，如下图所示：使用一般的定位方法找不到元素：driver.find_element_by_xpath('//div[@class,"a"]').click() 报错信息：is not clickable at point (8 ......

selenium 元素页面问题更新时间 2023-11-09

爬虫六

scrapy解析数据运行爬虫 scrapy crawl cnblogs 可以项目目录下写个main.py from scrapy.cmdline import execute execute(['scrapy','crawl','cnblogs','--nolog']) 重点 1、response ......

爬虫更新时间 2023-11-09

selenium4 python判断某个元素状态是否可用或者置灰

直接上代码： from selenium import webdriver from selenium.webdriver.common.by import By from time import sleep # 定义类 class GetEle: def __init__(self,driver) ......

selenium4 selenium 元素状态 python更新时间 2023-11-09

【教你写爬虫】用Java爬虫爬取百度搜索结果！可爬10w+条！

一、爬取目标大家好，我是盆子。今天这篇文章来讲解一下：使用Java爬虫爬取百度搜索结果。首先，展示爬取的数据，如下图。爬取结果1: 爬取结果2: 代码爬取展示: 可以看到，上面爬取了五个字段，包括标题，原文链接地址，链接来源，简介信息，发布时间。二、爬取分析用到的技术栈，主要有这些 Pu ......

爬虫搜索结果结果 Java 10更新时间 2023-11-09

selenium等待元素加载、selenium元素操作、执行js、切换选项卡、前进后退异常处理、登录cnblogs、抽屉半自动点赞、xpath、动作链

selenium等待元素加载 # 代码操作非常快》有的标签还没加载》找就找不到》就会报错 # 设置等待：显示等待，隐士等待 bro.implicitly_wait(10) # 找某个标签，如果找不到，最多等待10s selenium元素操作 # 点击操作 click() # 写文字 send_ ......

selenium 元素抽屉动作 cnblogs更新时间 2023-11-09

爬虫常用写法和用法

1、查找所有：结果 = re.findall(正则, 字符串) => 返回列表，用法：r""专业写正则的。没有转义的烦恼，result = re.findall(r"\d+", "我有1000万，不给你花，我有1块我给你") 2、结果 = re.finditer(正则, 字符串) => 返回迭代器 ......

爬虫写法常用更新时间 2023-11-09

打码平台、打码平台自动登录打码平台、selenium爬取京东商品信息、scrapy介绍安装、scrapy目录结构

打码平台 # 1 登录某些网站，会有验证码》想自动破解 -数字字母：python模块：ddddocr -计算题，成语题，滑块。。。：第三方打码平台，人工操作 # 2 打码平台 -云打码，超级鹰 # 3 咱们破解网站登录的思路 -使用selenium 》打开网站》（不能解析出验证码地址）》使用截 ......

平台 scrapy selenium 结构目录更新时间 2023-11-09

selenium 反爬

本地浏览器执行 import time from selenium import webdriver chrome_option = webdriver.ChromeOptions() chrome_option.add_experimental_option('excludeSwitches', ......

selenium更新时间 2023-11-09

Python爬虫：实现爬取、下载网站数据的几种方法

使用脚本进行下载的需求很常见，可以是常规文件、web页面、Amazon S3和其他资源。Python 提供了很多模块从 web 下载文件。下面介绍一、使用 requests requests 模块是模仿网页请求的形式从一个URL下载文件示例代码： import requests url = 'x ......

爬虫下载网站方法数据 Python更新时间 2023-11-09

Required request parameter 'numbers' for method parameter type String[] is not present

报错就是这个，然后报错的信息再给点详细的 org.springframework.web.bind.MissingServletRequestParameterException: Required request parameter 'numbers' for method parameter t ......

parameter Required request numbers present更新时间 2023-11-09

requests 库回顾发登录请求

1.md5 对密码加密 # md5 加密 import hashlib def get_md5(data1): # 传入加密的参数 data1 = hashlib.md5(data1.encode()) # 解密获得人类能看懂的字符串 data_md5 = data1.hexdigest() ret ......

requests更新时间 2023-11-09

爬虫五

打码平台 2、登录某些网站，会有验证码》想自动破解数字字母：python模块：ddddocr 计算题，成语题，滑块。。。：第三方打码平台，人工操作 2、打码平台云打码，超级鹰 3 、咱们破解网站登录的思路使用selenium 》打开网站》（不能解析出验证码地址）》使用截图案例超级鹰a ......

爬虫更新时间 2023-11-09

爬虫-mysql-工具

MySQL数据库一、MySQL数据库的介绍 1、发展史 1996年，MySQL 1.0 2008年1月16号 Sun公司收购MySQL。 2009年4月20，Oracle收购Sun公司。 MySQL是一种开放源代码的关系型数据库管理系统（RDBMS），使用最常用的数据库管理语言--结构化查询语言（ ......

爬虫工具 mysql更新时间 2023-11-09

共1820篇 :12/61页 首页上一页9101112131415下一页尾页