【爬虫】爬取网站图片的url学习记录，xpath用法-526互联

这次是想爬取一个壁纸网站里面图片的url，这里使用了lxml库，先上脚本

import requests

from lxml import etree

url="https://pic.netbian.com/4kdongman/"

domain="https://pic.netbian.com/"

data=requests.get(url)

#print(data.text)

et=etree.HTML(data.text) 加载html数据

res=et.xpath("//div[@class='slist']/ul/li/a/@href")

#print(res)

for i in res:

print(domain+i) 爬下来的路径是没有域名，加上域名

测试结果如下：

这里主要是用xpath进行匹配，以下是xpath用法的一些例子

这行代码关键还是这个res=et.xpath("//div[@class='slist']/ul/li/a/@href")

标签a一般都是超链接标签，后面的href就是目标图片的url，xpath就是标签一步步找下来就行，还是比匹配正则方便很多