day20 re requests模块 爬虫

发布时间 2023-12-12 22:12:10作者: Junior_bond

pandas模块:
有两种数据类型
series:一维
DataFrame:二维以及以上 二维最常用
一个表格分为 索引 index 列 columns 数据
pandas读出来的文件默认命名为df
df.index
df.columns
df.loc 按照索引取值
df.iloc按照行列取值

pandas里面0是行 1是列

matplotlib模块:
import matplotlib.pyplot as plt
#画一张图用默认的画布就可以
plt.bar()#条形图
plt.plot()#直线图
plt.hist()#直方图
plt.scatter()#散点图
plt.text()#文字

#画多张图就要自定义画布
fig=plt.figure()
ax1=fig.add_subplot(121)#创建了一个一行两列的画布 ax1取第一个
ax2=fig.add_subplot(122)#创建了一个一行两列的画布 ax2取第二个

re模块:

沙罗希瓦爬虫项目:

import re
import numpy
import requests
response=requests.get(r"https://news.4399.com/seer/tujian/67033.htm")
data=response.text
#print(data)
res=re.findall("newsimg.5054399.com/(.*?).jpg",data)
#print(res)
print(len(res))
for i in range(len(res)):
    res[i]='https://newsimg.5054399.com/'+res[i]+'.jpg'
    print(res[i])
for i in range(6):
    res_byte=requests.get(f"{res[i]}")
    byte_data=res_byte.content
    with open(f"{i}.jpg","wb") as fw:
        fw.write(byte_data)