11.25 Python爬蟲：使用Selenium模擬瀏覽器行為技术頭條網

前幾天有位微信讀者問我一個爬蟲的問題，就是在爬去百度貼吧首頁的熱門動態下面的圖片的時候，爬取的圖片總是爬取不完整，比首頁看到的少。原因他也大概分析了下，就是後面的圖片是動態加載的。他的問題就是這部分動態加載的圖片該怎麼爬取到。

分析

他的代碼比較簡單，主要有以下的步驟：使用BeautifulSoup庫，打開百度貼吧的首頁地址，再解析得到id為new_list標籤底下的img標籤，最後將img標籤的圖片保存下來。

headers = {
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'
}

data=requests.get("https://tieba.baidu.com/index.html",headers=headers)
html=BeautifulSoup(data.text,'lxml')

前面提到過，有部分圖片是動態加載的，那麼首先我們得弄清楚，這部分圖片是怎麼動態加載的。在瀏覽器中打開百度貼吧的首頁，可以明顯的看到，在往下滾動滾動條的時候，當滾動到底部的時候，滾動條縮短了，並向上移動了一段距離。這個現象也正是有DOM元素動態的添加到了html文檔的一個表現。動態加載數據無非就是ajax請求，而ajax本質上就是XMLHttpRequest請求(簡稱xhr)。在谷歌瀏覽器中，我們可以通過開發者工具的network面板來監測xhr請求。

剛打開首頁時的xhr請求，這裡的請求都和要爬取的圖片無關。

滾動條向下第1次滾動到底部，這裡請求的是第20-40條熱門動態，包含要爬取圖片。

滾動條向下第2次滾動到底部，這裡請求的是第40-60條熱門動態，包含要爬取圖片。並且返回的的has_more:false表明沒有跟多數據了。

滾動條向下第3次滾動到底部，再無xhr請求。

解決方案

根據上面的分析，我們已經明白，單純使用BeautifulSoup進行爬蟲的時候，只能爬取到1-20條熱門動態裡面的圖片。為了爬取到完整的熱門動態裡面的圖片，我們則需要模擬瀏覽器的滾動條滾動，讓網頁去觸發xhr請求更多的熱門動態。

在python中，如果需要模擬瀏覽器的行為，可以使用selenium庫。selenium庫是一個自動化測試框架，可以用來模擬測試瀏覽器的各種行為，這裡我們使用它來模擬瀏覽器打開百度貼吧的首頁，並模擬滾動條向下滾動到底部的操作。

安裝

pip install selenium

下載瀏覽器驅動

火狐瀏覽器驅動，其下載地址是：https://github.com/mozilla/geckodriver/releases
谷歌瀏覽器驅動，其下載地址是：http://chromedriver.storage.googleapis.com/index.html?path=2.33/
opera瀏覽器驅動，其下載地址是：https://github.com/operasoftware/operachromiumdriver/releases

對照自己電腦安裝的瀏覽器和對應的版本，分別從上面的地址下載驅動文件，也可以從我的github項目中統一下載以上幾個驅動(地址:https://github.com/Sesshoumaru/attachments/tree/master/Selenium%20WebDriver)。下載解壓後，將所在的目錄添加系統的環境變量中。當然你也可以將下載下來的驅動放到python安裝目錄的lib目錄中，因為它本身已經存在於環境變量（我就是這麼幹的）。

使用python代碼模擬瀏覽器行為

要使用selenium先需要定義一個具體browser對象，這裡就定義的時候就看你電腦安裝的具體瀏覽器和安裝的哪個瀏覽器的驅動。這裡以火狐瀏覽器為例：

from selenium import webdriver
browser = webdriver.Firefox()

再模擬打開貼吧首頁：

browser.get("https://tieba.baidu.com/index.html")

再模擬滾動條滾動到底部

for i in range(1, 5):
 browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
 time.sleep(1)

最後再使用BeautifulSoup，解析圖片標籤：

html = BeautifulSoup(browser.page_source, "lxml")
imgs = html.select("#new_list li img")

幾個注意點

必須安裝瀏覽器和瀏覽器驅動，並且瀏覽器和瀏覽器驅動要配到即如果使用谷歌瀏覽器模擬網頁行為，則需要下載谷歌瀏覽器驅動；如果使用火狐瀏覽器模擬網頁行為，則需要下載火狐瀏覽器驅動
瀏覽器驅動所在的目錄要在環境變量中，或者定義瀏覽器browser的時候指定驅動的路徑

selenium更多用法

查找元素

from selenium import webdriver

browser = webdriver.Firefox()
browser.get("https://tieba.baidu.com/index.html")
 

new_list = browser.find_element_by_id('new_list')
user_name = browser.find_element_by_name ('user_name')
active = browser.find_element_by_class_name ('active')
p = browser.find_element_by_tag_name ('p')

# find_element_by_name 通過name查找單個元素
# find_element_by_xpath 通過xpath查找單個元素
# find_element_by_link_text 通過鏈接查找單個元素
# find_element_by_partial_link_text 通過部分鏈接查找單個元素
# find_element_by_tag_name 通過標籤名稱查找單個元素
# find_element_by_class_name 通過類名查找單個元素
# find_element_by_css_selector 通過css選擇武器查找單個元素
# find_elements_by_name 通過name查找多個元素
# find_elements_by_xpath 通過xpath查找多個元素
# find_elements_by_link_text 通過鏈接查找多個元素
# find_elements_by_partial_link_text 通過部分鏈接查找多個元素
# find_elements_by_tag_name 通過標籤名稱查找多個元素
# find_elements_by_class_name 通過類名查找多個元素
# find_elements_by_css_selector 通過css選擇武器查找多個元素

獲取元素信息

btn_more = browser.find_element_by_id('btn_more')
print(btn_more.get_attribute('class')) # 獲取屬性
print(btn_more.get_attribute('href')) # 獲取屬性
print(btn_more.text) # 獲取文本值

元素交互操作

btn_more = browser.find_element_by_id('btn_more')
btn_more.click() # 模擬點擊,可以模擬點擊加載更多

input_search = browser.find_element(By.ID,'q')
input_search.clear() # 清空輸入

執行JavaScript

# 執行JavaScript腳本
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

分享到:

閱讀更多 有趣的程序媛 的文章

關鍵字: 百度貼吧 W 網絡爬蟲

11.25 Python爬蟲：使用Selenium模擬瀏覽器行為

相關文章:

【瀏覽器】HTML、CSS和JS如何變成頁面的？

127個常用的JS代碼片段，每段代碼花30秒就能看懂

HTTP協議講解

03.06 Springboot下的WebSocket開發

輕量級流量複製實踐

03.05 輕量級流量複製實踐

使用Vue 自定義文件選擇器組件(基礎雖簡單，但思路我們要掌握)

Spring Security基於Oauth2的SSO單點登錄怎樣做？一個註解搞定

03.02 Spring Security基於Oauth2的SSO單點登錄怎樣做？一個註解搞定

03.02 LocalStorage 如何實現過期時間功能

Angular用 Interceptors 來統一處理 HTTP請求和響應比如加token

02.26 介紹Vue UI管理Vue項目

02.23 127個常用的JS代碼片段，每段代碼花30秒就能看懂（四）

Javascript加密算法標準庫，支持Nodejs+瀏覽器——crypto-js

詳解瀏覽器分段請求基礎——Range，助你瞭解斷點續傳基礎

前端系列課程（4）-HTTP 協議

Vue 中如何讓 input 聚焦？(包含視頻講解)

SAP UI5 Web Component的圖標實現

介紹一個非常好用的文件服務器

阿里的一道筆試題，錯誤率極高，但瞭解堆棧機制後，秒變送分題

搭建前端監控系統（二）JS錯誤監控篇

和prototype到底有什麼區別？

Spring Boot 集成 Ehcache 緩存，三步搞定

什麼是$nextTick？為什麼需要它？異步更新隊列有什麼好處？

「防抖與節流 」每個請求必須發送，平滑地獲取最後一個返回值

為什麼需要cookie和session，cookie和session 又是什麼？

Spring Boot項目中如何定製攔截器

10.22 （乾貨）HTTP響應狀態碼參考

CAS 單點登錄簡介

10.19 由淺入深：瀏覽器資源緩存機制總結

SpringBootSecurity學習（23）前後端分離版之OAuth2.0 其它模式

10.12 webpack 中比較難懂的幾個變量名稱

koa2項目1

OAuth 系列(三)簡化模式 Implicit

OAuth 系列(六)對比總結

手把手搭建WebSocket多人在線聊天室，就是這麼強

08.25 什麼是Token驗證？驗證的流程是什麼？優點是什麼？缺點是什麼？

一句話解釋箭頭函數裡的This

設置RabbitMQ遠程ip登錄

IT兄弟連 JavaWeb教程 Servlet會話跟蹤 Cookie常用方法

淺談瀏覽器的緩存機制？

webpack四個核心概念

計算機網絡自學筆記:FTP和SMTP

Eureka Server啟用 https服務，讓微服務註冊更安全

var和let、const的區別

01.10 跨域+Cookie+Token+Web+APP均支持的分佈式單點登錄框架開箱即用

前後端分離，你真的懂什麼意思麼？

10.17 瀏覽器HTTP緩存原理分析

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

「防抖與節流」每個請求必須發送，平滑地獲取最後一個返回值

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？