【爬虫】爬取网站图片的url学习记录,xpath用法

发布时间 2023-11-09 09:43:41作者: GGBomb

这次是想爬取一个壁纸网站里面图片的url,这里使用了lxml库,先上脚本

import requests
from lxml import etree

url="https://pic.netbian.com/4kdongman/"
domain="https://pic.netbian.com/"
data=requests.get(url)

#print(data.text)
et=etree.HTML(data.text)                          加载html数据
res=et.xpath("//div[@class='slist']/ul/li/a/@href")
#print(res)
for i in res:
    print(domain+i)                                      爬下来的路径是没有域名,加上域名
测试结果如下:

这里主要是用xpath进行匹配,以下是xpath用法的一些例子

这行代码关键还是这个res=et.xpath("//div[@class='slist']/ul/li/a/@href")

标签a一般都是超链接标签,后面的href就是目标图片的url,xpath就是标签一步步找下来就行,还是比匹配正则方便很多