第 14 节 爬虫(1)

发布时间 2023-10-28 10:47:07作者: simadi

爬虫的应用场景

举个例子!

如果你需要做一个互联网岗位薪资分析,但是没数据你会怎么做?
自己想做一个视频网站,但是没那么多作品怎么办?
我想做一个新闻资讯,但是没新闻怎么办?
想看一个热度排行,怎么看?

做一些批量下载,怎么搞?

一、什么是爬虫
通俗的讲:就是模拟浏览器抓取数据
科学的讲:通过一定的规则用程序对互联网相关数据解析并存储
那么接下来我们简单看一个小小的案例

二、知识储备

关于前端要求:对HTML、CSS、JavaScript有一定的掌握,给大家推荐适合的小白教程
https://www.w3school.com.cn/html/index.asp
来!看一个案例!
https://movie.douban.com/chart


爬虫的流程 地址URL-请求-获取-解析-封装处理 -数据保存

 

1、我们发现返回是HTML文件,其中包括CSS、JavaScript、TypeScript、dengdengdeng
2、Python中的request、response
3、文件的读写,能够进行文件的操作
4、…

三、学前准备

必须要了解的浏览器运行的流程

发送至DNS服务器并获得域名对应的WEB服务器的ip地址→检查浏览器是否有缓存→与WEB服务器建立TCP连接。
→三次握手→获取HTML数据→服务器响应HTML→浏览器解柝→浏览器渲染→执行js脚本→发起网络请求→响应ajax请求

urllib库:用于操作网页URL,并对网页的内容进行抓取处理
urllib模块:
urllib.request-打开和读取URL。
urllib.error-包含urllib.request抛出的异常。urllib.parse-解析URL。
urllib.robotparser-解析robots.txt文件。

urllib.request的urlopen方法来打开一个URL
看其中的一些参数:
read()函数获取网页的HTML实体代码,加入参数控制长度
readline()-读取文件的一行内容
readlines()-读取文件的全部内容