動態網頁怎麼爬?這樣爬才是最適合零基礎小白的!剛學兩天就會了

動態網頁怎麼爬?這樣爬才是最適合零基礎小白的!剛學兩天就會了

動態網頁怎麼爬?這樣爬才是最適合零基礎小白的!剛學兩天就會了

本實戰是上圖中的“獨立python爬蟲”的一個實例,以採集豆瓣小組討論話題(https://www.douban.com/group/haixiuzu/discussion?start=0 )信息為例,記錄整個採集流程,包括python和依賴庫的安裝,即便是python初學者,也可以跟著文章內容成功地完成運行。

動態網頁怎麼爬?這樣爬才是最適合零基礎小白的!剛學兩天就會了

2.4,安裝selenium

pip install selenium2.5,PhantomJS下載

下載地址 http://phantomjs.org/download.html把下載得到的phantomjs-2.1.1-windows.zip解壓到本機的某個文件夾下把解壓後的文件夾中的phantomjs.exe的完整路徑加文件名記錄下來,用來替換下面代碼的 browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe') 這一行中的兩個單引號之間的內容。

3,網絡爬蟲的源代碼

動態網頁怎麼爬?這樣爬才是最適合零基礎小白的!剛學兩天就會了

運行過程如下:

將上面的代碼保存到douban.py中,和前面2.3步下載的提取器類gooseeker.py放在同一個文件夾中打開Windows CMD窗口,切換當前目錄到存放douban.py的路徑(cd \\xxxx\\xxx)運行 python douban.py

動態網頁怎麼爬?這樣爬才是最適合零基礎小白的!剛學兩天就會了

動態網頁怎麼爬?這樣爬才是最適合零基礎小白的!剛學兩天就會了

5,總結因為信息採集規則是通過api下載下來的,所以,本案例的源代碼顯得十分簡潔。同時,整個程序框架變得很通用,因為最影響通用性的採集規則是從外部注入的。

6,集搜客GooSeeker開源代碼下載源

1. GooSeeker開源Python即時網絡爬蟲GitHub源

簡單吧!嘿嘿!私信小編007即可獲取數十套PDF哦!


分享到:


相關文章: