Spiders:爬虫,定义了爬取的逻辑和网页内容的解析规则,主要负责解析响应并生成结果和新的请求;
Engine:引擎,处理整个系统的数据流处理,出发事物,框架的核心;
Scheduler:调度器,接受引擎发过来的请求,并将其加入队列中,在引擎再次请求时将请求提供给引擎;
Downloader:下载器,下载网页内容,并将下载内容返回给spider;
ItemPipeline:管道,负责处理spider从网页中抽取的数据,主要是负责清洗,验证和数据入库;
DownloaderMiddlewares:下载中间件,是处于Scrapy的Request和Response之间的处理模块;
SpiderMiddlewares:spider中间件,位于引擎和spider之间的框架,主要处理spider输入的响应和输出的结果及新的请求middlewares.py里实现;
python版本
python--versionPython3.7.3
安装scrapy
pythoninstallScrapy
scrapyScrapy1.8.0-noactiveprojectUsage:scrapy