PythonScrapy体会一下, - 水简介 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2021/1/18 7:33:00

Spiders：爬虫，定义了爬取的逻辑和网页内容的解析规则，主要负责解析响应并生成结果和新的请求；

Engine：引擎，处理整个系统的数据流处理，出发事物，框架的核心；

Scheduler：调度器，接受引擎发过来的请求，并将其加入队列中，在引擎再次请求时将请求提供给引擎；

Downloader：下载器，下载网页内容，并将下载内容返回给spider；

ItemPipeline：管道，负责处理spider从网页中抽取的数据，主要是负责清洗，验证和数据入库；

DownloaderMiddlewares：下载中间件，是处于Scrapy的Request和Response之间的处理模块；

SpiderMiddlewares：spider中间件，位于引擎和spider之间的框架，主要处理spider输入的响应和输出的结果及新的请求middlewares.py里实现；

python版本

python--versionPython3.7.3

安装scrapy

pythoninstallScrapy

scrapyScrapy1.8.0-noactiveprojectUsage:scrapy