Python爬虫--爬取豆瓣出版社名字

2019-08-15 | 阅读：次

前言：

爬取豆瓣出版社名字

爬取豆瓣出版社名字：

套路还是一样的，现在来爬取豆瓣出版社名字

就是这个东西，他在 div 里面

images

跟爬取 CSND 那个一样，写个正则就可以了

虽然爬取出版社名字豆瓣没有屏蔽爬虫，

但是还是来练习模拟浏览器请求吧

设置时间是防止请求过大

代码：

import urllib.request
import re
import time

url = "https://read.douban.com/provider/all"

headers = (

	"User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"

	)

opener = urllib.request.build_opener()

opener.addheaders = [headers]

data = opener.open(url).read().decode("utf-8","ignore")

path = '<div class="name">(.*?)</div>'

All_press = re.compile(path).findall(data)

for i in range(0,len(All_press)):
	this_press = All_press[i]
	print(this_press)
	time.sleep(0.5)

运行效果就这样

images

总结：

如果怕请求出错的话，

可以使用 try except 方法来捕获异常

blubiu

blubiu

Python爬虫--爬取豆瓣出版社名字

前言：

目录：

爬取豆瓣出版社名字：

总结：