以下是一个简单的Python爬虫代码示例,用于下载商品图片:
import requests
import os
from bs4 import BeautifulSoup
def download_image(url, save_path):
response = requests.get(url)
if response.status_code == 200:
with open(save_path, 'wb') as f:
f.write(response.content)
print("图片下载成功:", save_path)
else:
print("图片下载失败")
def main():
# 商品列表页面的URL
product_list_url = "https://example.com/products"
# 发送GET请求获取商品列表页面的HTML内容
response = requests.get(product_list_url)
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.content, "html.parser")
# 查找所有商品图片的标签
image_tags = soup.find_all("img")
for img in image_tags:
# 获取商品图片的URL
image_url = img["src"]
# 保存图片的文件名
image_filename = image_url.split("/")[-1]
# 保存图片的路径
save_path = "path/to/save/" + image_filename
# 创建保存图片的文件夹
os.makedirs(os.path.dirname(save_path), exist_ok=True)
# 下载图片
download_image(image_url, save_path)
else:
print("无法获取商品列表页面")
if __name__ == "__main__":
main()
在上述代码中,我们使用了requests
库发送GET请求获取商品列表页面的HTML内容,并使用BeautifulSoup
库解析HTML内容。然后,我们查找所有商品图片的标签,并依次下载图片。
在main
函数中,你需要将product_list_url
替换为实际的商品列表页面的URL。代码会自动解析页面中的图片标签,并将图片保存到指定的文件夹中。
请确保在运行代码之前已安装requests
和beautifulsoup4
库,可以通过pip install requests beautifulsoup4
命令进行安装。同时,根据实际情况修改商品列表页面的URL和保存图片的路径。