利用Python抓取貓眼電影TOP100

利用Python抓取貓眼電影TOP100

今天我要利用request庫和正則表達式抓取貓眼電影Top100榜單。

運行平臺: Windows

Python版本: Python3.6

IDE: Sublime Text

其他工具:Chrome瀏覽器

1. 抓取單頁內容

瀏覽器打開貓眼電影首頁,點擊“榜單”,然後再點擊"TOP100榜",就能看到想要的了。

利用Python抓取貓眼電影TOP100

接下來通過代碼來獲取網頁的HTML代碼。

利用Python抓取貓眼電影TOP100

運行結果如下:

利用Python抓取貓眼電影TOP100

2. 正則表達式提取有用信息

在上圖中,已經標註出我們將要提取的內容,下面用代碼實現:

利用Python抓取貓眼電影TOP100

運行結果如下:

利用Python抓取貓眼電影TOP100

3. 保存信息

獲取電影信息之後,要保存起來留用。要保存的有文本信息和電影封面。

利用Python抓取貓眼電影TOP100

下面為保存結果:

利用Python抓取貓眼電影TOP100

利用Python抓取貓眼電影TOP100

4.下載TOP100所有電影信息

通過點擊標籤頁發現只是URL變化了:

利用Python抓取貓眼電影TOP100

修改main函數以動態改變URL:

利用Python抓取貓眼電影TOP100

到此我們已經將TOP100的電影信息和封面全部得到了。

5.多線程抓取

此次抓取的數據不算多,但是為了學習,使用多進程進行抓取,以應對以後大量的數據抓取。

利用Python抓取貓眼電影TOP100

下面為普通抓取和多進程抓取的時間對比:

利用Python抓取貓眼電影TOP100

今天的分享就到這裡了,喜歡這篇文章的記得轉發+評論哦!讓大家看到你獨特的見解哦!

另外關注小編,私信“01”可以獲得更多的免費Python爬蟲案例,而且都是視頻哦!


分享到:


相關文章: