02.25 十二個Python爬蟲面試題,看看自己的學習成效吧

現在疫情差不多穩定了很多人也開始工作,沒工作的也開始找工作,下面呢為學python的同學選取了12個python爬蟲面試題,希望有幫助。

1、簡述一下爬蟲程序執行的流程

  獲取想要的頁面

  根據規則進行解析

  解析數據入庫

2、爬蟲在向數據庫存數據開始和結束都會發一條消息,是scrapy 哪個模塊實現的?

  答:Item Pipeline scrapy 的信號處理使用的是

  3、爬取下來的數據如何去重,說一下具體的算法依據。

  通過 MD5 生成電子指紋來判斷頁面是否改變

  nutch 去重。nutch 中 digest 是對採集的每一個網頁內容的 32 位哈希值,如果兩個網頁內容完全一樣,它們的 digest值肯定會一樣。

  4、寫爬蟲是用多進程好?還是多線程好? 為什麼?

  

十二個Python爬蟲面試題,看看自己的學習成效吧

  5、說一下 numpy 和 pandas 的區別?分別的應用場景?

  Numpy 是 數值計算 的擴展包,純數學。

  Pandas 做 數據處理以矩陣為基礎的數學計算模塊。提供了一套名為 DataFrame 的數據結構,比較契合統計分析中的表結構,並且提供了計算接口,可用 Numpy 或其它方式進行計算

  6、驗證碼如何處理

  Scrapy 自帶處理驗證碼

  獲取到驗證碼圖片的 url, 調用第三方付費接口破解驗證碼

  動態的股票信息如何抓取

  8、股票數據的獲取目前有如下兩種方法可以獲取:

  http/JavaScript 接口取數據

  web-service 接口

  Sina 股票數據接口

  以大秦鐵路(股票代碼:601006)為例,如果要獲取它的最新行情,只需訪問新浪的股票數據,只需訪問新浪的股票數據接口:http://hq.sinajs.cn/list=sh具體股票代碼編號

  9、爬蟲部署

  scrapy 去重

  

十二個Python爬蟲面試題,看看自己的學習成效吧

  10、分佈式有哪些方案,哪一種最好?

  celery、beanstalk,gearman

  11、個人認為 gearman 比較好。原因主要有以下幾點:

  技術類型簡單,維護成本低。

  簡單至上。能滿足當前的技術需求即可 (分佈式任務處理、異步同步任務同時支持、任務隊列的持久化、維

  有成熟的使用案例。instagram 就是使用的 gearman來完成圖片的處理的相關任務,有成功的經驗,我們當然應該借鑑。

  12、Post 和 Get 區別

  GET 請求的數據會暴露在地址欄中,而 POST 請求則不會。

  

十二個Python爬蟲面試題,看看自己的學習成效吧

  傳輸數據的大小

  

十二個Python爬蟲面試題,看看自己的學習成效吧

  安全性

  

十二個Python爬蟲面試題,看看自己的學習成效吧

最後,小編想說:我是一名python開發工程師,

整理了一套最新的python系統學習教程,

想要這些資料的可以關注私信小編“01”即可(免費分享哦)希望能對你有所幫助


分享到:


相關文章: