Scrapy-Redis分佈式爬蟲實戰技术頭條網

Scrapy-Redis分佈式爬蟲實戰

2020-02-13 10:47:02 sandag

Scrapy-Redis代碼實戰

Scrapy 是一個通用的爬蟲框架，但是不支持分佈式，Scrapy-redis是為了更方便地實現Scrapy分佈式爬取，而提供了一些以redis為基礎的組件(僅有組件)。

scrapy-redis在scrapy的架構上增加了redis，基於redis的特性拓展瞭如下四種組件：

Scheduler
Duplication Filter
Item Pipeline
Base Spiderscrapy-redis架構

Scheduler

Scrapy原本的queue是不支持多個spider共享一個隊列的，scrapy-redis通過將queue改為redis實現隊列共享。

Duplication Filter

Scrapy中通過Python中的集合實現request指紋去重，在scrapy-redis中去重是由Duplication Filter組件來實現的，它通過redis的set不重複的特性，巧妙的實現了DuplicationFilter去重。

Item Pipeline

引擎將(Spider返回的)爬取到的Item給Item Pipeline，scrapy-redis 的Item Pipeline將爬取到的 Item 存入redis的 items queue。修改過Item Pipeline可以很方便的根據 key 從 items queue提取item，從而實現 items processes集群。

Base Spider

不再使用scrapy原有的Spider類，重寫的RedisSpider繼承了Spider和RedisMixin這兩個類，RedisMixin是用來從redis讀取url的類。

當我們生成一個Spider繼承RedisSpider時，調用setup_redis函數，這個函數會去連接redis數據庫，然後會設置signals(信號)：一個是當spider空閒時候的signal，會調用spider_idle函數，這個函數調用schedule_next_request函數，保證spider是一直活著的狀態，並且拋出DontCloseSpider異常。一個是當抓到一個item時的signal，會調用item_scraped函數，這個函數會調用schedule_next_request函數，獲取下一個request

安裝Scrapy-Redis

<code>python3.6 -m pip install scrapy-redis/<code>

項目練習

首先修改配置文件

<code>BOT_NAME = 'cnblogs'SPIDER_MODULES = ['cnblogs.spiders']NEWSPIDER_MODULE = 'cnblogs.spiders'# Obey robots.txt rulesROBOTSTXT_OBEY = False# Configure maximum concurrent requests performed by Scrapy (default: 16)#CONCURRENT_REQUESTS = 32# See also autothrottle settings and docs#DOWNLOAD_DELAY = 3DOWNLOAD_DELAY = 2 # 等待2sMY_USER_AGENT = ["Mozilla/5.0+(Windows+NT+6.2;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/45.0.2454.101+Safari/537.36",    "Mozilla/5.0+(Windows+NT+5.1)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/28.0.1500.95+Safari/537.36+SE+2.X+MetaSr+1.0",    "Mozilla/5.0+(Windows+NT+6.1;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/50.0.2657.3+Safari/537.36"]# Enable or disable downloader middlewares# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.htmlDOWNLOADER_MIDDLEWARES = {   'cnblogs.middlewares.UserAgentMiddleware': 543,}LOG_LEVEL = "ERROR"ITEM_PIPELINES = {   'cnblogs.pipelines.MongoPipeline': 300,}#將結果保存到Mongo數據庫MONGO_HOST = "127.0.0.1"  # 主機IPMONGO_PORT = 27017  # 端口號MONGO_DB = "spider_data"  # 庫名MONGO_COLL = "cnblogs_title"  # collection名#需要將調度器的類和去重的類替換為 Scrapy-Redis 提供的類SCHEDULER = "scrapy_redis.scheduler.Scheduler"DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"REDIS_HOST = '127.0.0.1'REDIS_PORT = 7001 #Redis集群中其中一個節點的端口#配置持久化#Scrapy-Redis 默認會在爬取全部完成後清空爬取隊列和去重指紋集合。#SCHEDULER_PERSIST = True#設置重爬#SCHEDULER_FLUSH_ON_START = True/<code>

代碼要改的地方有兩處：

第一處是繼承的RedisSpider

第二處就是start_urls改為了redis_key。

<code># -*- coding: utf-8 -*-import scrapyimport datetimefrom scrapy_redis.spiders import RedisSpiderclass CnblogSpider(RedisSpider):    name = 'cnblog'    redis_key = "myspider:start_urls"    #start_urls = [f'https://www.cnblogs.com/c-x-a/default.html?page={i}' for i in range(1,2)]        def parse(self, response):        main_info_list_node = response.xpath('//div[@class="forFlow"]')        content_list_node = main_info_list_node.xpath(".//a[@class='postTitle2']/text()").extract()        for item in content_list_node:            url = response.url            title=item            crawl_date = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')            item = {}            item['url'] = url            item['title'] = title.strip() if title else title            item['crawl_date'] = crawl_date            yield item/<code>

因為Scrapy-Redis是以Redis為隊列進行消息共享的，所以我們的任務需要提前插入到數據庫，它的key就叫我們指定的"myspider:start_urls"。

在之前創建好的redis集群中插入任務，首先使用集群的模式連接數據庫

<code>redis-cli -c -p 7000 #我的redis集群的一個Master節點端口/<code>

執行下面的語句插入任務

<code>lpush myspider:start_urls https://www.cnblogs.com/c-x-a/default.html?page=1lpush myspider:start_urls https://www.cnblogs.com/c-x-a/default.html?page=2/<code>

然後查看

<code>lrange myspider:start_urls 0 10/<code>

看到我們的任務，好了任務插入成功了。

接下來就是運行代碼了，運行完代碼之後，去查看三處。

第一處，查看redis的任務發現任務已經沒有了

<code>(empty list or set)/<code>

第二處，查看mongo數據庫，發現我們成功保存了結果。

第三處，你會發現的你爬蟲程序並沒有結束，這個其實是正常的，因為我們使用了scrapy-redis之後，爬蟲程序會一直取redis中的任務，如果沒有任務了就等待，如果在redis插入了新的任務他就會繼續進行爬蟲程序，之後又進入等待任務的狀態。

分享到:

閱讀更多 sandag 的文章

關鍵字: 分佈式網絡爬蟲實戰

Scrapy-Redis分佈式爬蟲實戰

Scheduler

Duplication Filter

Item Pipeline

Base Spider

安裝Scrapy-Redis

項目練習

相關文章:

分佈式服務架構精講pdf文檔：原理+設計+實戰，（收藏再看）

實戰-使用 Cobbler 定製化安裝指定系統

【SpringBoot】JPA接入Elasticsearch6.3.2 實戰

Serverless 實戰：通過 Serverless 架構實現監控告警

由淺入深剖析MySQL：面試+實戰+大綱，成功從青銅晉級王者最全pdf

Google又更新了：實戰 MergeAdapte

實戰：tcpdump抓包分析三次握手四次揮手

實戰：如何使用CSS3 Cubic-Bezier創建鏈接懸停動畫效果

【實戰】從零開始使用JavaScript製作自己的命令行(CLI工具)

Golang 入門系列（七）整合Redis詳解， 實戰！

Golang 入門系列（七）整合Redis詳解，實戰

深入前端tree優化渲染速度從14.65s到0.49s【實戰】

2 鏡像的存儲驅動與 Dockerfile 實戰

SpringBoot 快速集成 Elasticsearch 實戰

【SpringBoot基礎系列-實戰】如何指定 bean 最先加載(應用篇)

「實戰」華為MSTP原理及案例配置詳解

最全spring套裝：spring學習指南+實戰+源碼解析+架構與設計原理

03.06 Arthas 實戰，助你解決同名類依賴衝突問題

03.01 別人家的 InfluxDB 實戰 + 源碼剖析

03.01 「實戰」如何根據自己業務自定義配置Topshelf 服務

02.25 實戰-使用 Cobbler 安裝一臺 CentOS 主機

Flask 實戰：如何從零開發“知乎”

SpringBoot集成Elasticsearch7.5 實戰

實戰：徹底搞定 SpringBoot 整合 Kafka

「實戰」助力數據庫開發之接口篇

「C++實戰」機房預約系統（下）

Serverless 實戰——Funcraft + OSS + ROS 進行 CI

01.02 Spring Boot 實戰：如何自定義 Servlet Filter

Spring Cloud Alibaba 實戰(八)

11.29 實戰：使用 Go 打造另一款簡單實用的 ORM

「實戰」IPv6地址基礎配置，一分鐘瞭解下

CIFAR10+卷積神經網絡+TensorBoard 實戰

「實戰」三層交換機的基本功能實現VLAN之間的通信，一分鐘瞭解下

Spring Boot 2 實戰：自定義啟動運行邏輯

「技術乾貨」師傅說不會寫shell腳本的網安不是一個好黑客，實戰

Knative 實戰：如何在 Knative 中配置自定義域名及路由規則

實戰：利用re模塊爬取淘寶商品信息

10.22 黑客“實戰”內容之Redis未授權訪問漏洞復現

「Prometheus系列」實戰—Prometheus + Grafana——Nginx 監控

實戰--MS17_010滲透內網主機

不做生意，也可以搭建個商城系統玩玩：Linux 實戰

實戰：用Python實現隨機森林

Spring Boot 實戰

實戰：用python實現簡單線性回歸！

實戰-MySQL定時進行全量與增量備份

shiro自定義realm——實戰

06.25 druid中 如何從本地批(batch)導入與從hdfs 批導入數據 實戰

實戰：基於 docker 的 HA-hadoop 集羣搭建

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

Golang 入門系列（七）整合Redis詳解，實戰！

06.25 druid中如何從本地批(batch)導入與從hdfs 批導入數據實戰

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？