水简介

首页 » 常识 » 问答 » PythonScrapy体会一下,
TUhjnbcbe - 2021/1/18 7:33:00
北京治疗白癜风好方法         http://baidianfeng.39.net/bdfby/yqyy/

Spiders:爬虫,定义了爬取的逻辑和网页内容的解析规则,主要负责解析响应并生成结果和新的请求;

Engine:引擎,处理整个系统的数据流处理,出发事物,框架的核心;

Scheduler:调度器,接受引擎发过来的请求,并将其加入队列中,在引擎再次请求时将请求提供给引擎;

Downloader:下载器,下载网页内容,并将下载内容返回给spider;

ItemPipeline:管道,负责处理spider从网页中抽取的数据,主要是负责清洗,验证和数据入库;

DownloaderMiddlewares:下载中间件,是处于Scrapy的Request和Response之间的处理模块;

SpiderMiddlewares:spider中间件,位于引擎和spider之间的框架,主要处理spider输入的响应和输出的结果及新的请求middlewares.py里实现;

python版本

python--versionPython3.7.3

安装scrapy

pythoninstallScrapy

scrapyScrapy1.8.0-noactiveprojectUsage:scrapy

1
查看完整版本: PythonScrapy体会一下,