blubiu

My Love

上网不网恋,简直浪费电.


Python爬虫--Scrapy框架基础


前言:

前面一章讲了 Scrapy 安装 ,

现在总结一下 Scrapy框架基本使用


目录:


指令介绍:

打开 cmd 窗口 输入 scrapy -h 即可查看指令

images


指令 功能
bench 项目指令,一般在项目里面运行的指令
fetch 获取某个网页的信息,使用此指令可以网页到本地
genspider 创建爬虫文件,而不是爬虫项目
runspider 运行爬虫
settings 查看爬虫对应的配置信息
shell 可以启动爬虫的交互终端,进入一个交互式窗口
startproject 创建一个爬虫项目
version 查看爬虫的版本信息
view 可以实现下载某个网页并用浏览器查看功能

其他的就不多介绍了。


目录结构:

下面来了解一下爬虫的目录结构

假设我们在 D 盘 下的 scrapy 目录下创建一个爬虫项目 ,名字叫 demo

这里我们需要使用命令 startproject 来创建

命令:

scrapy startproject demo

这样就创建好了。

images


打开 demo 后,里面有两个文件,

一个是爬虫核心目录文件,

另外一个是爬虫配置文件。

images


接下来看看 核心目录

__pycache__ 是缓存目录

spiders 文件夹放的是爬虫文件,一个爬虫项目里面可以有多个文件

__init__.py 是初始化文件

items.py 是定义爬取目标,如何去爬取的文件

middlewares.py 是中间件文件,比如爬取一个目标,中间要经过什么,使用代理或者其他的,都在这个文件里设置

pipelines.py 是爬后数据处理文件,爬取数据后怎样的一个处理方式就是这个文件来工作

settings.py 是爬虫设置文件,假如不想遵守 robots 文件协议,可以在这里面设置

images


爬虫工作流程:

首先定义一个爬取目录 item

然后由爬虫文件 spiders 向这些目标发起请求 ,

Scrapy Engine 意思是爬虫工作引擎

Scheduler 是任务队列

接到任务后,就去 intemet 上爬取目标

然后再返回 spiders 处理这些信息

大概就是这么一个流程

如果中间需要走什么代理,那么 middlewares 就可以了

images


这里的话就是一些简单的操作了

主要是查看一些信息

images


项目指令:

项目指令就是在爬虫项目里面才能使用的指令

首先我们进到爬虫项目里面

然后输入命令

scrapy -h

然后你就会发现多出来几个指令

checkcrawleditlist

images


check 检查爬虫文件是否合规

crawl 运行某个爬虫文件

edit 编辑某个爬虫文件

list 展示当前爬虫项目下,那些可以使用的爬虫文件

fetch 获取某个网页的信息

不过这个指令不是项目指令


fetch 使用方法:

scrapy fetch https://www.baidu.com/  # 比如要获取百度网页信息

images


shell 使用方法:

scrapy shell https://www.baidu.com/  # 使用交互方式爬取百度网页信息

爬取完后就进入了交互式页面 。

images


总结:

基础就先这样吧!!