爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
spider-flow 是一個爬蟲平臺,以圖形化方式定義爬蟲流程,無需代碼即可實現一個爬蟲
特性
- 支持css選擇器、正則提取
- 支持JSON/XML格式
- 支持Xpath/JsonPath提取
- 下載地址往下看↓↓↓↓↓↓↓
- 支持多數據源、SQL select/insert/update/delete
- 支持爬取JS動態渲染的頁面
- 支持代理
- 支持二進制格式
- 支持保存/讀取文件(csv、xls、jpg等)
- 常用字符串、日期、文件、加解密、隨機等函數
- 支持流程嵌套
- 支持插件擴展(自定義執行器,自定義函數)
- 支持HTTP接口
演示
- 添加爬蟲任務
- 爬蟲流程
- 測試爬蟲
準備環境
JDK >= 1.8
Mysql >= 5.7
Maven >= 3.0
運行項目
- 前往下載地址下載解壓到工作目錄
- 設置Eclipse倉庫,菜單Window->Preferences->Maven->User Settings->User Settings 後邊的Browse,然後導入自己的Maven目錄的conf目錄下的settings.xml文件,然後點Apply,在點OK
- 導入到Eclipse,菜單file->Import,然後選擇Maven->Existing Maven Projects,點擊Next>按鈕,選擇工作目錄,然後點擊Finish按鈕,即可導入成功
- 導入數據庫,基礎表:spider-flow/db/spiderflow.sql,插件(proxypool)需要的表:spider-flow/spider-flow-proxypool/db/sp_proxy.sql
- 打開並運行org.spiderflow.SpiderApplication.java
- 打開瀏覽器,輸入(http://localhost:8088/)
獲取方式
關注+轉發+私信“爬蟲”,自動發送項目下載地址
(溫馨提示:先關注,然後轉發,然後私信引號內的關鍵字)
閱讀更多 聊推 的文章