Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!

最近貌似對好看的圖著迷,Pixabay爬不到原圖不甘心呀。

轉發評論+私信“學習”即可領取python視頻教程


百度+知乎了下,於是轉向pexels,同樣一個高人氣圖片網站。

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


1、分析查看
首先點擊進入官網,又見瀑布流,點擊查看源碼。轉發評論+私信“學習”即可領取python視頻教程

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


查看源代碼和首頁差不多,接著是圖片真實地址鏈接。我在這裡繞了幾個彎,具體不敘述。
加上前面pixabay的坑,最後得到經驗:直接點擊官方下載按鈕,從對話框中看到圖片真實鏈接,這是最保險的模式。(因為有時“查看模式”並不能提供真實鏈接,而且有時也並不能下載得到。)

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


我第一次以為鏈接只有第二種,結果辛辛苦苦匹配正則下載的圖確是這樣的:

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


有些圖並不能打開,又得到教訓:爬蟲爬下的圖打不開時,可能鏈接地址是錯的。

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


每個鏈接後面都多了個’?’,如何去掉字符串最後一位字符,我記得string類是沒有像list類的pop()方法的,又考驗Python基礎。不過這個簡單啦~

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


點擊源碼中href=”/search/water/?page=2”,頁面跳轉

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


地址欄裡鏈接變成 https://www.pexels.com/search/water/?page=2
熟悉的感覺,這幾個圖好像剛剛那個頁面也出現過。。。
回第一頁源碼中數了下,一共才發現15張縮略圖的鏈接。
然後全明白了,回page1一數正好吻合。


原來獲取圖片接口在源碼裡啊,每一頁15張,308就是最大頁數了。
接著就簡單了,又可以循環遍歷,避開瀑布流啦^_^
試著下載圖片,結果又出么蛾子了:

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


二、結果
最後來看下結果
已經存在的圖自動跳過。

Python爬蟲入門!破解pexels高清原圖!零基礎必學教程!


強迫症患者,終於等到10頁圖全部下載完才睡。。。
本來準備隨便拿個圖看效果
結果太大了上傳不了。。。。


(比如上圖第一排最右邊的那個圖就有27M)

轉發評論+私信“學習”即可領取python視頻教程


分享到:


相關文章: