Python什麼爬蟲庫好用?

IT好玩


Python下的爬蟲庫,一般分為3類。

抓取類

  1. urllib(Python3),這是Python自帶的庫,可以模擬瀏覽器的請求,獲得Response用來解析,其中提供了豐富的請求手段,支持Cookies、Headers等各類參數,眾多爬蟲庫基本上都是基於它構建的。建議學習瞭解一下,因為有些罕見的問題需要通過底層的方式解決。

  2. requests,基於urllib,但是更方便易用。強烈推薦掌握。


解析類

  1. re:正則表達式官方庫,不僅僅是學習爬蟲要使用,在其他字符串處理或者自然語言處理的過程中,這是繞不過去的一個庫,強烈推薦掌握。

  2. BeautifulSoup:方便易用,好上手,推薦掌握。通過選擇器的方式選取頁面元素,並獲取對應的內容。

  3. lxml:使用

    lxml.etree

    將字符串轉換之後,我們可以使用XPath表達式來解析網頁,終極推薦。XPath對於網頁解析的支持非常強大,而且很容易上手。它本來是設計出來進行XML元素選擇的,但是它同樣支持HTML。

  4. pyquery:另一個強大的解析庫,感興趣的可以學習下。


綜合類

  1. selenium:所見即所得式爬蟲,綜合了抓取和解析兩種功能,一站式解決。很多動態網頁不太容易通過requests、scrapy直接抓取,比如有些url後邊帶了加密的隨機數,這些算法不太好破解,這種情況下,只能通過直接訪問網址、模擬登陸等方式請求到頁面源碼,直接從網頁元素中解析內容,這種情況下,Selenium就是最好的選擇。不過Selenium最初設計出來,是用於測試的。強烈推薦。

  2. scrapy:另一個爬蟲神器,適合爬取大量頁面,甚至對分佈式爬蟲提供了良好的支持。強烈推薦。


以上這些是我個人經常使用的庫,但是還有很多其他的工具值得學習。比如Splash也支持動態網頁的抓取;Appium可以幫助我們抓取App的內容;Charles可以幫助我們抓包,不管是移動端還是PC網頁端,都有良好的支持;pyspider也是一個綜合性的框架;MySQL(pymysql)、MongoDB(pymongo),抓到了數據就要存儲,數據庫也是繞不過去的。


掌握了以上這些,基本上大部分的爬蟲任務都難不倒你啦!


你也可以關注我的頭條號,或者我的個人博客,裡邊會有一些爬蟲類的分享。數洞: www.data-insights.cn/www.data-insight.cn.


大數據揭秘


Python爬蟲,首推scrapy,架構比較清晰,代碼寫起來很簡潔,如果是python純新手的話,還是建議從urllib開始練手,熟悉python的編程基礎。




o蕭蕭的風o


1.不用框架的話,強烈推薦requests庫,這個庫是真的唉urllib這些庫好用

2.用框架的話,用scrapy,畢竟現在的一個主流,資料也多

我也在學習python爬蟲,大家一起努力


技術修煉之路


Python爬蟲庫,基本的有urllib,bs4庫,前者是Python自帶的網頁請求庫,後者是常用的網頁內容解析與提取庫。一些基本爬蟲功能基本可以通過這兩個庫實現。

除了這個兩個,還有requests,pyquery,selenium,scrapy等庫,這些庫效率更高一點,能實現更為複雜的抓取工作。詳情可以百度,書籍的話,推薦《Python網絡數據採集》。


夜燭隙談


新手第一個demo就是用bs4+urllib去爬的小電影,結果發現,沒空間存了,現在一些網站安全做的真差,一個head就搞定了,大部分都沒安全……


亂風飛絮X


框架的話:scrapy

庫:requests

小項目自己寫就行不需要用框架。


一隻小coder


Scrapy和Pyspider是兩個比較好的python爬蟲框架


trY


Scrapy

自己平常沒事練習了一些項目,都是用的這個抓取數據的


代碼的那些事


當然是Request_html 咯 這個庫功能非常多! 抓取JavaScript CSS HTML 都不在話下! 沒有它抓取不到的內容哦! 建議你也好好學一學吧!


七月與良言


目前用的bs4和requests兩個模塊比較多


分享到:


相關文章: