網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

網絡爬蟲,即網絡蜘蛛(Web Spider),存在於整個互聯網的每一個角落,可以說是互聯網中的“蜘蛛俠們”(Spidermans),24小時不間斷地在工作。你的網站能被用戶百度出來,就是因為百度蜘蛛像“老大哥”一樣,時刻關注著它。下圖展現的是百度搜索引擎應用百度蜘蛛的工作原理。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

下面,我將搭建自己編寫爬蟲的工作環境,並記錄其中存在的問題。

操作系統:Windows 7 專業版,64位。這不是選擇的結果,完全是可用的筆記本本身就是這個系統,練習用比較方便,不耽誤其他用途。部署正式服務器建議使用Linux,各個版本都可以,穩定可靠。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

編程語言:Python3.4.4,64位。Python 的有點很明顯,輕巧簡便,有許許多多的開源第三方庫可以使用。後面,我就將使用非常流行的Requests和Beatiful Soup庫來進行網絡爬蟲編程練習。相關信息可以在官網查詢:https://www.python.org/。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

Python的最新版本已經更新到3.9.0a4,可3.5以上版本在我的操作系統上無法正常安裝,需要Windows 7 Service Pack 1支持。但是,微軟官方已經於2020年1月14日停止更新Windows 7,從微軟官網下載SP1補丁包更新也失敗了。經過多次嘗試,我的電腦操作系統只能安裝3.4.4以前的版本。無奈只能接受現實。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

Windows下安裝python較為簡單,一直下一步就可以完成。還可以在安裝過程中通過勾選,配置好環境變量,這樣就可以在電腦的任何地方啟用Python終端了。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

Requests庫的安裝比較麻煩,首先要安裝pip,然後使用pip自動安裝。安裝過程中會缺少依賴包(需要urllib3、chardet、idna、certifi),好的一點是現在Windows也可以想Linux那樣聯網安裝,自動下載所需安裝包並匹配合適的版本。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

文本編輯器:Sublime Text 3。Python安裝完會自帶一個IDLE編輯器,能夠滿足初步學習使用,但是代碼自動提示等插件較少,很少有人為它編寫第三方插件。Sublime Text 是一款流行的代碼編輯器軟件,也是HTML和散文先進的文本編輯器,可運行在Linux,Windows和Mac OS X。也是許多程序員喜歡使用的一款文本編輯器軟件。在第三方插件幫助下,可以很好支持所有類型的編程語言,包括Python。

官方網站:http://www.sublimetext.com/。

中文官網:https://sublimetextcn.com/。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

我安裝了Package Control、SublimeREPL、Alignment等插件。

1. Package Control是Sublime Text的包管理器,負責各種包的安裝、卸載等。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

2. SublimeREPL:Sublime Text本身不能運行程序,沒有交互功能,SublimeREPL起到控制檯的效果。

網絡爬蟲編程環境搭建(Windows+Python+Sublime Text)

3. 下面的插件安裝就不配圖了:

  • Alignment插件主要用於代碼自動對齊。
  • BracketHighlight插件用於代碼高亮顯示。
  • CTags是函數追蹤插件。
  • SublimeGit主要用於將代碼推送的GitHub。
  • Trailing Spaces用於去除多餘的空格和TAG。
  • Anaconda插件sublime裡面支持python最好的代碼提示、參數不全等功能。

這樣Windows+Python+Sublime Text的爬蟲編程環境搭建完畢,可以開始實踐練習了。


分享到:


相關文章: