今日头条我的收藏爬虫

发布时间 2023-11-18 21:17:02作者: pmh905001

背景:

今日头题我的收藏搜索功能很弱,收藏的文章在pc/手机上总是如法全部搜索出来。也给头条反馈了很多次,总是不搭理。实在忍受不了这种敷衍,决定自己写一个爬虫。

 

思路:

 

  • 先解决有无问题,做一个最基础版本。


  • 头条我的收藏是是get请求,返回的是json格式数据,直接使用requests发送请求到头条。

     

  • 滚动到收藏列表底部的时候,网页会发送新的ajax请求到头条,收藏内容滚动到下一页。通过不断发送请求指定max_behot_time不断取出每页的内容
  • 关于持久化,sqlite/mongodb/mysql/pg/文本文件。简单实现来看一个文本就解决问题,每页的json类容就是一行。之后再把这些文件内容导入到数据库。

实现:

https://github.com/pmh905001/myfavorite/