python数据分析师入门-学习笔记(爬虫-序言)

发布时间 2023-07-30 21:09:46作者: 阿慢2010

爬虫到底是什么

概括

爬虫是批量化自动获取既有数据

  • 批量化
  • 自动
  • 既有数据

通常

  • 获取既有数据

特殊

  • 批量注册一批账号
  • 批量去领取优惠券
  • 批量自动下单购物
  • 自动做任务(签到)

实际应用

  • 企业中:
    • 竞品调研数据采集
    • 办公自动化
  • 个人:
    • 比如看小说
      • 有的网站收费
      • 有的网站不收费,但是有广告
      • 目标:不看广告不交钱
        • 广告屏蔽插件
        • 爬下来
    • 比如说抢票、抢茅台、抢票...

爬虫分类

1. 聚焦爬虫

  • 完成某一项特定数据的采集
  • 百分之九十的爬虫

2. 通用爬虫

  • 什么内容都采集,存储下来
  • 搜索引擎

3. 增量爬虫

  • 既可以使用聚焦爬虫,也可以使用通用爬虫
  • 当内容变化时,可以爬取变化的内容

4. 暗网爬虫

  • 深网爬虫
  • 很少见
  • 本身违法

爬虫合法吗

机器人协议

  • robots.txt

    • 协议中规定了哪些内容可以获取,哪些内容不能获取
    • 通常协议中会标明哪些不让爬

    baidu.com/robots.txt
    taobao.com/robots.txt

君子协议

  • 未标注是否可以爬取
  • 历史上哪些工程师被抓
    • 有一家公司被一锅端
      • 工程师写了一个爬虫,采集另外一家公司网站数据,丝毫没有管网站死活
    • 有一个工程师,写了一个爬虫给女朋友抢HPV疫苗,给别人抢,收费

写爬虫的注意事项

  • 给服务器留活路
    • 爬虫开启后,用其他设备访问爬虫网站
  • 脱离敏感数据
  • 不要公开收费
  • 不要爬国家的这种公共资源网站

爬虫如何搞钱

  1. 入职企业,找一份爬虫工程师的岗位

  2. 抢购

    • 最火的茅台
    • 电商平台秒杀
  3. 羊毛出自猪身上

    • 看小说(投放广告)
  4. 引流比价

    • 购物助手
  5. 点赞、收藏、刷粉丝、刷评论、刷播放量

核心

  • 资源的整合

链接地址:

python数据分析爬虫到底是什么

python爬虫的应用场景

python爬虫的分类

python爬虫合法吗

python爬虫如何搞钱