支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單


項目名稱:Crawlab

項目作者:tikazyq

開源許可協議:BSD-3-Clause

項目地址:https://gitee.com/tikazyq/crawlab

項目簡介

Crawlab 是一款基於Golang的分佈式爬蟲管理平臺,支持Python、NodeJS、Go、Java、PHP等多種編程語言以及多種爬蟲框架。

Crawlab 主要解決的是大量爬蟲管理困難的問題,例如需要監控上百個網站的參雜scrapy和selenium的項目不容易做到同時管理,而且命令行管理的成本非常高,還容易出錯。Crawlab支持任何語言和任何框架,配合任務調度、任務監控,很容易做到對成規模的爬蟲項目進行有效監控管理。

項目架構

Crawlab的架構包括了一個主節點(Master Node)和多個工作節點(Worker Node),以及負責通信和數據儲存的Redis和MongoDB數據庫。

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

前端應用向主節點請求數據,主節點通過MongoDB和Redis來執行任務派發調度以及部署,工作節點收到任務之後,開始執行爬蟲任務,並將任務結果儲存到MongoDB。架構相對於v0.3.0之前的Celery版本有所精簡,去除了不必要的節點監控模塊Flower,節點監控主要由Redis完成。

項目截圖

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

登錄

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

首頁

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

節點列表

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

節點拓撲圖

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

爬蟲列表

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

爬蟲概覽

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

爬蟲分析

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

爬蟲文件編輯

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

任務抓取結果

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

任務日誌

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

定時任務

支持多種語言框架的分佈式爬蟲管理平臺,爬蟲本應如此簡單

消息通知

目前該項目已經更新至 0.5.1 版本,如果你看了介紹後想要上手試一試它的表現如何, 那麼就點擊下方瞭解更多,前往項目主頁看看具體的部署方法和流程吧。


分享到:


相關文章: