方案一:手动处理,从请求头里直接复制到headers中(会过期)
requests:
HEADERS = {
'Cookie': 'xxxxxx',
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36"}
scrapy请求时:(setting文件内设置cookies并开启)
COOKIES_ENABLED = False
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'cookies':'xxxxx'
}
方案二:自动处理,使用session模块;自动维护的只能是响应头返回的cookie(set-cookie)
session = requests.session()
resp = session.post(url =url, data=data, headers=headers)
# 一般登录界面,先加载一个原始的cookie(登录页的url),再对验证码的url发请求
# 手动获取cookie的值
cookie_dic = response.cookies.get_dict()
方案三:selenium拿cookie
cookies = bro.get_cookies()
dic = {}
for cookie in cookies:
key = cookie['name']
value = cookie['value']
dic[key] = value
print(dic) #在爬虫中可以使用的cookie(headers中)
方案四:通过session手动设置cookie(终极处理方式);处理JS得到的cookie
session = requests.Session()
seesion.cookies.set('b_lsid',lsid)
# 或者update
session.cookies.update({'token':token,'mi':mi_code})
或将JS逆向中通过请求得到的键值对过程将request改成session请求,即将cookie写到session对象中。