Python爬取网页数据成功啦!

发布时间 2023-04-06 11:38:56作者: yesyes1

前几天的爬取数据步骤有一点不太对,没能够成功实现爬取网页中的数据,今天又抽时间尝试了一下,想要解决掉这个问题,然后经过查找相关资料,并在实现过程中了解了Python爬取网页数据的实质,也算是更加详细地了解到了Python是如何爬取网页数据的,让我在心里也形成了一个Python爬取网页数据的基本框架,受益颇深。

先上源代码:

# python爬取网页数据

import os
import requests

headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.62'}

resp=requests.get("https://h5speed.m.jd.com/v2/speed/event?k1=firstScreenImg&v1=1333&s1=firstScreenImgTotal&k3=%2F10025642636418.html%23&v3=1333&s3=firstScreenImg&flag=159&sid=512ded93-3209-4a12-9905-8b4f559c2063&libVer=3.7.3&url=https%3A%2F%2Fitem.jd.com%2F10025642636418.html%23comment&rts=1680750058330&title=%E8%BF%88%E4%B9%90%EF%BC%88Merrell%EF%BC%89%E7%94%B7%E5%A5%B3%E6%AC%BE%E6%88%B7%E5%A4%96%E7%99%BB%E5%B1%B1%E5%BE%92%E6%AD%A5%E9%9E%8B%E5%87%8F%E9%9C%87MOAB3%E8%BD%BB%E9%87%8F%E5%BE%92%E6%AD%A5%E9%98%B2%E6%BB%91%E6%97%B6%E5%B0%9A%E8%80%90%E7%A3%A8%E9%80%8F%E6%B0%94%E5%BE%92%E6%AD%A5%E9%9E%8B%20J035894%E7%99%BD%E7%81%B0%E7%B1%B3%EF%BC%88%E5%A5%B3%EF%BC%89%2038%E3%80%90%E5%9B%BE%E7%89%87%20%E4%BB%B7%E6%A0%BC%20%E5%93%81%E7%89%8C%20%E6%8A%A5%E4%BB%B7%E3%80%91-%E4%BA%AC%E4%B8%9C&network=4g",headers=headers)

fo=open('a.txt','a+')
fo.write(resp.text)
fo.close()
print(resp.text)

简单的基本步骤:

1、按住F12,进入网页运行日志界面,进入Network(网络)界面,然后Ctrl+R,刷新界面;

2、随意选中其中一个,然后选中其中的Header(标头)界面,将URL复制

3、然后带入到这里

import requests
resp=requests.get('你获取到的URL地址')
print(resp.text)

4、点击运行之后发现,没有输出任何内容

原因在这里:https://www.cnblogs.com/liuzijin/p/17292253.html

5、所以,我们需要随意点开一个浏览器,进入开发工具界面(F12)
然后刷新,复制随意一个user-agent

6、将复制的user-agent定义为headers
然后在url地址后面,加上这样一句话headers=headers,就变成了:

import requests
resp=requests.get('你获取到的URL地址',headers=headers)
print(resp.text)

之后就可以显示出结果啦!