第 14 节爬虫（2）-526互联

from urllib.request import urlopen
#urLLib相关与URL处理的包管理器
url "http://photo.sina.com.cn/"
con urlopen(url)
print('------')
print(con.read())
cons =con.read()
f open('test.html','wb')
f.write(cons)
f.close()
print(cons.decode('utf-8'))

open

核心：创建一个file对象python的I/0

open(namel,model,buffering]])

buffering:设置缓冲
encoding:一般使用utf8
errors:报错级别
newline:区分换行符
closefd:传入的file参数类型
opener:设置自定义开启器，开启器的返回值必须是一个打开的文件描述符
使用方式直接向上：

1、关于name:想访问的文件名
2、mode:决定打开的模式
m0d->w:只用于写入如果文件存在，则直接打开，并从头进行编辑，进行原覆盖（别了重来），如果没有这个文件，他就会创建一个新的
mode->wb:以二进制格式打开（一般用于非文本文件）

urLLib主要作用：操作网页URL
llib.request.urlopen(url,data=None,[timeout,]*cafile-None,capath=None,cadefault=False,context=None)
url:url地址。
data:发送到服务器的其他数据对象，默认为None。timeout:设置访问超时时间。
cafile和capath:cafile勇CA证书，capath为CA证书的路径，使用HTTPS需要用到。
cadefault:已经被弃用。
context:ssL.SSLContext类型，用来指定SSL设置。

read():主要用于读取网页的内容

python文件操作：
对于Excel的操作需要引入openpyxlfile对象属性：
closed告诉结果：文件是否被关闭，如果关闭成功返回true、else-》false
f =open('text.html','wb')
f.closed
f.mode
f.name
f.softspace
如果需要做一些文件外部操作：
如果想要rename->你需要去引入os

526互联

第 14 节 爬虫（2）

第 14 节爬虫（2）