如何利用Python爬蟲爬取智聯招聘並存為Excel?

張靜琪


這個非常簡單,智聯招聘的數據都是動態加載的,存在一個json文件中,只要我們抓包提取到這個json文件的url地址,然後直接請求解析這個json文件,就能爬取到我們需要的數據,下面我簡單介紹一下實現過程,實驗環境win10+python3.6+pycharm5.0,主要內容如下:

1.為了更好的說明問題,這裡以爬取智聯招聘上的“Python”招聘為例,如下:

2.首先,按F12調出開發者工具,依次點擊“Network”->“XHR”,按F5刷新頁面,就可以看到網頁動態加載的json文件信息,也就是我們需要爬取的招聘信息,如下:

3.接著,針對以上json文件格式,我們就可以編寫對應代碼進行請求和解析json文件了,測試代碼如下,主要用到requests模塊和json模塊,其中requests模塊用於獲取json文件,json模塊用於解析json文件,提取我們需要的數據:

點擊運行這個程序,效果如下,已經成功爬取到我們需要的數據:

4.最後就是將數據存儲到Excel文件中,這個也非常簡單,主要用到xlwt這個模塊,專門用於寫入數據到excel文件中,直接寫入到對應單元格進行,測試代碼如下:

點擊運行這個程序,就會在當前目下生產一個excel文件,內容如下,就是我們需要爬取的招聘信息:

至此,我們就完成了利用python來爬取智聯招聘數據並存儲為Excel文件。總的來說,這個過程不難,就是抓包分析,獲取到json文件,然後解析json文件,提取數據,只要你有一定的python爬蟲基礎,熟悉一下上面的代碼,很快就能掌握的,網上也有相關教程和資料可供參考,很豐富,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言。


分享到:


相關文章: