因為頭條對外鏈不支持等其他原因,上圖所有爬蟲項目地址可在實驗樓微信公眾號(實驗樓)後臺回覆關鍵字 “爬蟲” 獲取。以下為字母順序的列表:
A
- 暗網爬蟲(Go)
B
- Bilibili 用戶 | Bilibili 小視頻 | B站760萬視頻信息爬蟲
- Bing美圖爬蟲
- 博客園(node.js)
- 百度百科(node.js)
- 百度雲網盤
- Boss 直聘
- 博客園
D
- 豆瓣讀書 | 豆瓣爬蟲集 | 豆瓣害羞組
- DNS記錄和子域名
- DHT網絡磁力種子爬蟲
- 抖音
G
- Girl-atlas
- girl13
- GitHub trending
- GitHub 倉庫及用戶分析爬蟲
H
- HDOJ爬蟲
I
- INC500 世界5000強爬蟲
J
- 京東
- 京東搜索+評論
- 京東商品+評論
- 機票
- 煎蛋妹紙
- 煎蛋妹紙selenium版本
- 今日頭條,網易,騰訊等新聞
- 計算機書籍控圖書
K
- 看知乎
- konachan
L
- 鏈家
- 鏈家成交在售在租房源
- 拉勾
- 爐石傳說
- leetcode
- 領英銷售導航器爬蟲 LinkedInSalesNavigator
M
- 馬蜂窩 用戶足跡
- MyCar
- 漫畫喵 一鍵下載漫畫~
- MM131性感美女寫真圖全爬取
- 美女寫真套圖爬蟲 (一)(二)(三)
- 妹子圖
- 貓眼網電影評分
N
- 新聞監控
- 你好汙啊
P
- Pixiv
- PornHub
- packtpub
- 91porn
Q
- QQ空間
- QQ 群
- 清華大學網絡學堂爬蟲
- 去哪兒
- 前程無憂Python招聘崗位信息爬取分析
R
- 人人影視
- RSS 爬蟲
- rosi 妹子圖
- reddit 壁紙
S
- soundcloud
- Stackoverflow 100萬問答爬蟲
- Shadowsocks 賬號爬蟲
- spider163 網易雲音樂爬蟲
- 時光網電影數據和海報爬蟲
T
- tumblr
- 下載tumblr喜歡內容
- TuShare
- 天貓雙12爬蟲
- Taobao mm
- Tmall 女性文胸尺碼爬蟲
- 淘寶直播彈幕爬蟲(node)
- 天涯論壇文章
V
- Youtube字幕下載
- 視頻信息爬蟲
- 電影網站
W
- 烏雲公開漏洞
- 微信公眾號
- “代理”方式抓取微信公眾號文章
- 網易新聞
- 網易精彩評論
- 微博主題搜索分析
- 網易雲音樂
- 新.網易熱評
- 唯品會商品
X
- 雪球股票信息(java)
- 新浪微博
- 新浪微博分佈式爬蟲
- 心靈毒雞湯
Y
- 英美劇 TV (node.js)
Z
- ZOL 手機壁紙爬蟲
- 知乎(python)
- 知乎(php)
- 知網
- 知乎妹子
- 自如實時房源提醒
其他
- 各大門戶服務網站爬蟲
- DHT 爬蟲
- SimDHT
- p2pspider
- 80s 影視資源爬蟲 - JianSo_Movie
什麼是爬蟲
爬蟲是一種可以爬取指定網站頁面的指定信息的應用程序,通過爬蟲,我們可以獲取網站中我們需要的數據。
爬蟲的核心邏輯包括以下幾個步驟:
- 通過一個 URI 地址,模擬類似瀏覽器的行為獲取這個 URI 地址對應的 HTML 頁面,部分爬蟲甚至還可以支持 JavaScript 的執行。
- 獲取之後通過頁面解析,從頁面中的指定的 HTML 標籤下提取得到我們需要的數據。
- 對數據進行處理之後存入指定的存儲,比如文件系統,MySQL 等關係型數據庫,Redis,MongoDB 等 NoSQL 數據庫中。
- 繼續爬取其他的 URI 地址,這些 URI 地址可以從之前爬取得到的頁面中提取,也可以通過一個 URI 庫直接由啟動爬蟲的用戶來輸入。
- 繼續回到步驟1爬取並分析頁面。
爬蟲技術目前經常遇到的難點問題:
登錄及驗證碼:有些頁面在爬取的過程中,經常會遇到頁面的交互操作,比如需要你輸入用戶名及密碼進行登錄才可以獲取,有的網站還會提供驗證碼進行驗證,這一類的數據獲取都非常不容易。
JavaScript 等異步數據:部分網頁的數據並不是在網頁加載後就能夠獲得的,需要執行 JavaScript 來獲取然後再更新到網頁,這種情況下部分爬蟲是無法爬取到的。通常會採用的解決方案是模擬瀏覽器去訪問頁面並執行 JavaScript 後獲得完整的數據再進行頁面解析。
反爬措施:有些網站會禁止無限制的爬取,會對 IP 地址及 User Agent 等爬蟲標誌進行限制,避免網站因為爬蟲造成壓力過大或者信息洩漏。在這種情況下,很多爬蟲會選擇進行 User Agent 偽裝或者 IP 代理池的機制。
什麼是通用爬蟲?
這裡所說的通用爬蟲指的是能夠爬取任何網站頁面的爬蟲,常見的爬蟲都是特定的爬蟲,特定爬蟲需要根據爬取的目標網站進行設計實現。比如知乎爬蟲或者豆瓣爬蟲,這一類的文章在網上可以找到很多,都會針對於知乎及豆瓣的特定頁面進行分析,並設計爬蟲的實現邏輯。
閱讀更多 實驗樓 的文章