第 14 节 爬虫(2)

发布时间 2023-10-28 11:07:42作者: simadi

from urllib.request import urlopen
#urLLib相关与URL处理的包管理器
url "http://photo.sina.com.cn/"
con urlopen(url)
print('------')
print(con.read())
cons =con.read()
f open('test.html','wb')
f.write(cons)
f.close()
print(cons.decode('utf-8'))

open

核心:创建一个file对象python的I/0

open(namel,model,buffering]])

buffering:设置缓冲
encoding:一般使用utf8
errors:报错级别
newline:区分换行符
closefd:传入的file参数类型
opener:设置自定义开启器,开启器的返回值必须是一个打开的文件描述符
使用方式直接向上:

1、关于name:想访问的文件名
2、mode:决定打开的模式
m0d->w:只用于写入如果文件存在,则直接打开,并从头进行编辑,进行原覆盖(别了重来),如果没有这个文件,他就会创建一个新的
mode->wb:以二进制格式打开(一般用于非文本文件)

urLLib主要作用:操作网页URL
llib.request.urlopen(url,data=None,[timeout,]*cafile-None,capath=None,cadefault=False,context=None)
url:url地址。
data:发送到服务器的其他数据对象,默认为None。timeout:设置访问超时时间。
cafile和capath:cafile勇CA证书,capath为CA证书的路径,使用HTTPS需要用到。
cadefault:已经被弃用。
context:ssL.SSLContext类型,用来指定SSL设置。

read():主要用于读取网页的内容

 

python文件操作:
对于Excel的操作需要引入openpyxlfile对象属性:
closed告诉结果:文件是否被关闭,如果关闭成功返回true、else-》false
f =open('text.html','wb')
f.closed
f.mode
f.name
f.softspace
如果需要做一些文件外部操作:
如果想要rename->你需要去引入os