Python網絡爬蟲之配置篇(一)

寫在前面

在互聯網時代,最具實用價值的當屬“數據”,當你還在焦慮該如何從網上批量下載圖片、視頻或者工作所需要的一些數據時,別人已經很熟練的運用python爬蟲技術高效辦公,分析、挖掘數據以及為機器學習提供重要的數據源。

關於python網絡爬蟲的書籍和教程很多,當我們在自學時難免會踩到很多雷區。一般新手都會被開發環境配置問題難住,從而打消繼續學習的積極性,在接下來的內容裡,我將自己踩過的雷,以及排雷的方法分享給大家,避免在網絡上雜亂的回答中再次陷入泥潭。

Python3的安裝注意事項

從官方網站下載Python3:https://www.python.org/downloads/release/選擇一個版本下載

Python網絡爬蟲之配置篇(一)

多版本選擇


安裝完成後就是環境配置問題了,為什麼要進行環境配置?簡而言之就是為了更好的運行進程,能夠在命令行中執行環境變量路徑下的可執行文件,如python,pip命令來導入第三方庫。

環境配置:

Step1:將你所安裝的python3的路徑複製下來

Step2:右擊“計算機”,選擇“屬性”,選擇“高級系統設置”

Python網絡爬蟲之配置篇(一)

高級系統設置


Step3:點擊下方“環境變量”,在“系統變量”中找到“path”,新建將step1中複製的路徑添加到裡面。回車後再把python中Scripts的文件夾路徑複製進去就可以了

Python網絡爬蟲之配置篇(一)

path


Python網絡爬蟲之配置篇(一)


請求庫安裝注意事項:

在“開始”菜單中搜索cmd,回車後進入命令行模式,一般輸入pip3 install +“庫名稱”就可以正常導入所需要的請求庫了,但此命令默認打開的是https://pypi.python.org/simple/,在國內訪問速度很慢會導致安裝失敗,此時就可以通過國內的鏡像網站來解決此問題。

國內鏡像網站:

清華:https://pypi.tuna.tsinghua.edu.cn/simple/

阿里雲:http://mirrors.aliyun.com/pypi/simple/

中國科技大學 https://pypi.mirrors.ustc.edu.cn/simple/

華中理工大學:http://pypi.hustunique.com/

山東理工大學:http://pypi.sdutlinux.org/

豆瓣:http://pypi.douban.com/simple/

安裝舉例:安裝requests庫

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/ tensorflow-gpu==版本號,下劃線部分為指定庫的版本號,如不需要指定版本號則可刪除

接下來將會持續更新selenium庫自動化驅動瀏覽器所遇見的問題,還有Firefox瀏覽器的Firebug組件,特牛的下載器Internet Download Manager等,歡迎您的關注哦!


分享到:


相關文章: