爬虫作业-526互联

#请用requests库的get()函数访问如下一个网站２０次，打印返回状态，text()内容，计算text()属性和content属性所返回网页内容的长度。
import requests
url="https://cn.bing.com/?mkt=zh-CN&mkt=zh-CN"
def getHTMLText(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding="utf-8"
        print("text:",r.text)
        print(len(r.text))
    except:
        return ""
for i in range(20):
    print(getHTMLText(url))

#这是一个简单的html页面,请保持为字符串，完成后面的计算要求

import requests
from bs4 import BeautifulSoup

r='''<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body>
<h1>我的第一个标题</h1>
<p　id="first">我的第一个段落。</p>
</body>
<table border="1">
<tr>
<td>row 1, cell 1</td>
<td>row 1, cell 2</td>
</tr>
<tr>
<td>row 2, cell 1</td>
<td>row 2, cell 2</td>
</tr>
</table>
</html>'''

soup=BeautifulSoup(r)
print("{}{}".format(40,soup.head))

print(soup.body)
print(soup.find(id='first'))
list_=''
for i in r:
       if('\u4e00' <= i <= '\u9fff'):
         list_+=i
print(list_)

爬虫