項目名稱:Crawlab
項目作者:tikazyq
開源許可協議:BSD-3-Clause
項目地址:https://gitee.com/tikazyq/crawlab
項目簡介
Crawlab 是一款基於Golang的分佈式爬蟲管理平臺,支持Python、NodeJS、Go、Java、PHP等多種編程語言以及多種爬蟲框架。
Crawlab 主要解決的是大量爬蟲管理困難的問題,例如需要監控上百個網站的參雜scrapy和selenium的項目不容易做到同時管理,而且命令行管理的成本非常高,還容易出錯。Crawlab支持任何語言和任何框架,配合任務調度、任務監控,很容易做到對成規模的爬蟲項目進行有效監控管理。
項目架構
Crawlab的架構包括了一個主節點(Master Node)和多個工作節點(Worker Node),以及負責通信和數據儲存的Redis和MongoDB數據庫。
前端應用向主節點請求數據,主節點通過MongoDB和Redis來執行任務派發調度以及部署,工作節點收到任務之後,開始執行爬蟲任務,並將任務結果儲存到MongoDB。架構相對於v0.3.0之前的Celery版本有所精簡,去除了不必要的節點監控模塊Flower,節點監控主要由Redis完成。
項目截圖
目前該項目已經更新至 0.5.1 版本,如果你看了介紹後想要上手試一試它的表現如何, 那麼就點擊下方瞭解更多,前往項目主頁看看具體的部署方法和流程吧。