爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
spider-flow 是一個爬蟲平臺,以圖形化方式定義爬蟲流程,無需代碼即可實現一個爬蟲
特性
支持css選擇器、正則提取支持JSON/XML格式支持Xpath/JsonPath提取下載地址往下看↓↓↓↓↓↓↓支持多數據源、SQL select/insert/update/delete支持爬取JS動態渲染的頁面支持代理支持二進制格式支持保存/讀取文件(csv、xls、jpg等)常用字符串、日期、文件、加解密、隨機等函數支持流程嵌套支持插件擴展(自定義執行器,自定義函數)支持HTTP接口演示
添加爬蟲任務添加爬蟲任務
爬蟲流程
測試爬蟲
準備環境
JDK >= 1.8
Mysql >= 5.7
Maven >= 3.0
運行項目
前往下載地址下載解壓到工作目錄設置Eclipse倉庫,菜單Window->Preferences->Maven->User Settings->User Settings 後邊的Browse,然後導入自己的Maven目錄的conf目錄下的settings.xml文件,然後點Apply,在點OK導入到Eclipse,菜單file->Import,然後選擇Maven->Existing Maven Projects,點擊Next>按鈕,選擇工作目錄,然後點擊Finish按鈕,即可導入成功導入數據庫,基礎表:spider-flow/db/spiderflow.sql,插件(proxypool)需要的表:spider-flow/spider-flow-proxypool/db/sp_proxy.sql打開並運行org.spiderflow.SpiderApplication.java打開瀏覽器,輸入(http://localhost:8088/)獲取方式
關注+轉發+私信“爬蟲”,自動發送項目下載地址
(溫馨提示:先關注,然後轉發,然後私信引號內的關鍵字)