7、代理池所需相关库安装

发布时间 2023-12-27 15:46:31作者: 五杀摇滚小拉夫
利用代理解决爬虫目标网站封ip的问题,可以使用免费的代理或者付费的代理ip,对于不可用的ip无法及时识别,可以通过搭建ip代理池提高爬虫的工作效率。

1、首先所需redis库安装,redis是基于内存的高效的非关系型数据库。
github下载地址:版本 3.2.100 ·微软存档/Redis ·GitHub的,切后台查看是否安装成功。

 2、安装aiohttp

requests库是一个阻塞式http请求库,发送最后一个请求后,程序会一直等待服务器响应,知道的带响应后,程序才会进行下一步处理。过程会比较耗时间,程序可以在等待的过程中做些其他事情,所以比较局限。

aiohttp是提供一个异步的web服务的库,使用异步请求库进行数据抓取时,会大大提高效率。

3、redis-py  
pip install redis 使用redis库与redis进行交互。
拓展:redisdump 是用于redis数据导入、导出的工具,是基于ruby实现的。

4、pyquery 解析库 pip3 install pyquery

5、web库安装 flask
flask是个轻量级web的程序,操作简单、易用、灵活,主要用于API服务。
pip install flask