09.26 以圖形化方式定義爬蟲流程,不寫代碼即可完成爬蟲

爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

spider-flow 是一個爬蟲平臺,以圖形化方式定義爬蟲流程,無需代碼即可實現一個爬蟲

特性

  • 支持css選擇器、正則提取
  • 支持JSON/XML格式
  • 支持Xpath/JsonPath提取
  • 下載地址往下看↓↓↓↓↓↓↓
  • 支持多數據源、SQL select/insert/update/delete
  • 支持爬取JS動態渲染的頁面
  • 支持代理
  • 支持二進制格式
  • 支持保存/讀取文件(csv、xls、jpg等)
  • 常用字符串、日期、文件、加解密、隨機等函數
  • 支持流程嵌套
  • 支持插件擴展(自定義執行器,自定義函數)
  • 支持HTTP接口

演示

  • 添加爬蟲任務
以圖形化方式定義爬蟲流程,不寫代碼即可完成爬蟲

添加爬蟲任務

  • 爬蟲流程
以圖形化方式定義爬蟲流程,不寫代碼即可完成爬蟲

爬蟲流程

  • 測試爬蟲
以圖形化方式定義爬蟲流程,不寫代碼即可完成爬蟲

測試爬蟲

準備環境

JDK >= 1.8

Mysql >= 5.7

Maven >= 3.0

運行項目

  1. 前往下載地址下載解壓到工作目錄
  2. 設置Eclipse倉庫,菜單Window->Preferences->Maven->User Settings->User Settings 後邊的Browse,然後導入自己的Maven目錄的conf目錄下的settings.xml文件,然後點Apply,在點OK
  3. 導入到Eclipse,菜單file->Import,然後選擇Maven->Existing Maven Projects,點擊Next>按鈕,選擇工作目錄,然後點擊Finish按鈕,即可導入成功
  4. 導入數據庫,基礎表:spider-flow/db/spiderflow.sql,插件(proxypool)需要的表:spider-flow/spider-flow-proxypool/db/sp_proxy.sql
  5. 打開並運行org.spiderflow.SpiderApplication.java
  6. 打開瀏覽器,輸入(http://localhost:8088/)

獲取方式

關注+轉發+私信“爬蟲”,自動發送項目下載地址

(溫馨提示:先關注,然後轉發,然後私信引號內的關鍵字)


分享到:


相關文章: