今天我要利用request庫和正則表達式抓取貓眼電影Top100榜單。
運行平臺: Windows
Python版本: Python3.6
IDE: Sublime Text
其他工具:Chrome瀏覽器
1. 抓取單頁內容
瀏覽器打開貓眼電影首頁,點擊“榜單”,然後再點擊"TOP100榜",就能看到想要的了。
接下來通過代碼來獲取網頁的HTML代碼。
運行結果如下:
2. 正則表達式提取有用信息
在上圖中,已經標註出我們將要提取的內容,下面用代碼實現:
運行結果如下:
3. 保存信息
獲取電影信息之後,要保存起來留用。要保存的有文本信息和電影封面。
下面為保存結果:
4.下載TOP100所有電影信息
通過點擊標籤頁發現只是URL變化了:
修改main函數以動態改變URL:
到此我們已經將TOP100的電影信息和封面全部得到了。
5.多線程抓取
此次抓取的數據不算多,但是為了學習,使用多進程進行抓取,以應對以後大量的數據抓取。
下面為普通抓取和多進程抓取的時間對比:
今天的分享就到這裡了,喜歡這篇文章的記得轉發+評論哦!讓大家看到你獨特的見解哦!
另外關注小編,私信“01”可以獲得更多的免費Python爬蟲案例,而且都是視頻哦!
閱讀更多 開發袁啊 的文章