第 14 节爬虫（1）-526互联

爬虫的应用场景

举个例子！

如果你需要做一个互联网岗位薪资分析，但是没数据你会怎么做？
自己想做一个视频网站，但是没那么多作品怎么办？
我想做一个新闻资讯，但是没新闻怎么办？
想看一个热度排行，怎么看？

做一些批量下载，怎么搞？

一、什么是爬虫
通俗的讲：就是模拟浏览器抓取数据
科学的讲：通过一定的规则用程序对互联网相关数据解析并存储
那么接下来我们简单看一个小小的案例

二、知识储备

关于前端要求：对HTML、CSS、JavaScript有一定的掌握，给大家推荐适合的小白教程
https://www.w3school.com.cn/html/index.asp
来！看一个案例！
https://movie.douban.com/chart

爬虫的流程地址URL-请求-获取-解析-封装处理 -数据保存

1、我们发现返回是HTML文件，其中包括CSS、JavaScript、TypeScript、dengdengdeng
2、Python中的request、response
3、文件的读写，能够进行文件的操作
4、…

三、学前准备

必须要了解的浏览器运行的流程

发送至DNS服务器并获得域名对应的WEB服务器的ip地址→检查浏览器是否有缓存→与WEB服务器建立TCP连接。
→三次握手→获取HTML数据→服务器响应HTML→浏览器解柝→浏览器渲染→执行js脚本→发起网络请求→响应ajax请求

urllib库：用于操作网页URL,并对网页的内容进行抓取处理
urllib模块：
urllib.request-打开和读取URL。
urllib.error-包含urllib.request抛出的异常。urllib.parse-解析URL。
urllib.robotparser-解析robots.txt文件。

urllib.request的urlopen方法来打开一个URL
看其中的一些参数：
read()函数获取网页的HTML实体代码，加入参数控制长度
readline()-读取文件的一行内容
readlines()-读取文件的全部内容

526互联

第 14 节 爬虫（1）

第 14 节爬虫（1）