前言
最近在做監控相關的配套設施,發現很多腳本都是基於Python的。很早之前就聽說其大名,人生苦短,我學Python,這並非一句戲言。隨著人工智能、機器學習、深度學習的崛起,目前市面上大部分的人工智能的代碼 大多使用Python 來編寫。所以人工智能時代,是時候學點Python了。
基本環境配置
- Python3
- PyCharm
實現步驟
以妹子圖為例,其實很簡單,分以下四步:
- 獲取首頁的頁碼數,並創建與頁碼對應的文件夾
- 獲取頁面的欄目地址
- 進入欄目,獲取欄目頁碼數(每個欄目下有多張圖片,分頁顯示)
- 獲取到欄目下對用標籤中的圖片並下載
注意事項
爬取過程中,還需要注意以下幾點,可能對你有所幫助:
1)導庫,其實就類似於Java中框架或者是工具類,底層都被封裝好了
2)定義方法函數,一個爬蟲可能會幾百行,所以儘量不要寫成一坨
3)定義全局變量
4)防盜鏈
5)切換版本
6)異常捕獲
代碼實現
總結
其實腳本很簡單,從配置環境、安裝集成開發環境、編寫腳本到整個腳本順利執行,差不多花費了四五個小時,最終腳本一根筋的執行。限於服務器帶寬以及配置的影響,17G的圖差不多下載了三四個小時,至於剩下的83G,小夥伴們自行下載吧。
*聲明:本文於網絡整理,版權歸原作者所有,如來源信息有誤或侵犯權益,請聯繫我們刪除或授權事宜。
覺得不錯,點個贊 然後轉發出去