python爬取电影演员数据

发布时间 2023-05-16 16:40:33作者: YE-

可以使用Python中的BeautifulSoup和Requests库来爬取网络上的电影数据和演员数据。

首先需要使用Requests库发送网络请求,获取HTML页面的源代码。然后,使用BeautifulSoup库解析HTML代码,提取需要的数据。

下面是一个示例代码,用于从IMDb网站上获取电影"Titanic"的演员列表,以及他们的角色信息:

import requests
from bs4 import BeautifulSoup

# 发送GET请求,获取网页源代码
url = "https://www.imdb.com/title/tt0120338/fullcredits"
response = requests.get(url)
html = response.content

# 解析HTML代码,提取演员和角色信息
soup = BeautifulSoup(html, "html.parser")
cast_list = []

tables = soup.find_all("table", {"class": "cast_list"})
for table in tables:
    rows = table.find_all("tr")
    for row in rows:
        cols = row.find_all("td")
        if len(cols) == 4:
            actor = cols[1].find("a").text.strip()
            character = cols[3].text.strip()
            cast_list.append((actor, character))

# 打印演员和角色信息
for actor, character in cast_list:
    print(actor, "-", character)

在上面的示例代码中,首先我们发送了一个GET请求来获取电影网页上的HTML代码。

然后,使用BeautifulSoup库的"find_all"方法查找演员和角色信息的表格。

接着,遍历表格中的所有行和列,提取出演员和角色信息,将这些信息存储到一个列表中。最后,我们打印出演员和角色信息。

如果你想要获取其他数据,可以根据需要在代码中进行修改。需要注意的是,爬取网页数据需要遵守相关法律法规和网站的规定,否则可能会引起问题。