python数据分析师入门-学习笔记(第六节 爬虫合法吗)

发布时间 2023-07-30 12:59:37作者: 阿慢2010

学习链接:Python数据分析师入门

爬虫合法吗

机器人协议

  • robots.txt

    • 协议中规定了哪些内容可以获取,哪些内容不能获取
    • 通常协议中会标明哪些不让爬

    baidu.com/robots.txt
    taobao.com/robots.txt

君子协议

  • 未标注是否可以爬取
  • 历史上哪些工程师被抓
    • 有一家公司被一锅端
      • 工程师写了一个爬虫,采集另外一家公司网站数据,丝毫没有管网站死活
    • 有一个工程师,写了一个爬虫给女朋友抢HPV疫苗,给别人抢,收费

写爬虫的注意事项

  • 给服务器留活路
    • 爬虫开启后,用其他设备访问爬虫网站
  • 脱离敏感数据
  • 不要公开收费
  • 不要爬国家的这种公共资源网站