Python爬蟲技術與php爬蟲技術對比,哪個更有優勢?

Software科技言


首先爬蟲需要處理的問題是:

  • 發送http請求;

  • 解析HTML源碼;

  • 處理反爬蟲機制;

  • 效率;

就爬蟲來說,個人認為python更有優勢:

1.對於頁面的解析能力

如果要是從0開始到想要實現一耳光HTML解析器,首先是有難度的並且耗時大。

2.對於數據庫的操作能力

對於數據庫的話,python的官方以及第三方有鏈接庫的,針對爬蟲來說,存儲在NoSQL型的數據庫個人認為更加合適

3.爬取效率

腳本語言的運算速度並不高,但是相對於特定網站的反爬蟲機制的強度和網絡IO的速度來說。這幾門語言的速度差異是可以忽略的,但是對於開發人員來說,如果利用好發送網絡請求的等待時間處理另外的事,那麼在效率上是沒有問題的。

4.代碼量

這一點還是python佔優勢,眾所周知的是python的代碼簡潔,只要水平夠。


啊窩額


首先要分清楚python和php的優勢和劣勢。php在web開發確實一定程度上優於python,但是如果做爬蟲,python毫無疑問是最優的選擇。理由如下:

1:爬蟲最大得困難在於反反爬。豐富的生態(Scrapy爬蟲框架,selenium等等headless瀏覽器)讓反反爬容易不少,文檔豐富,各種庫和driver極大的降低了爬蟲編寫難度。php據我所知,這些似乎沒有什麼太大的優勢。

2: python簡單,俗稱膠水語言。不管是java,還是php,甚至node都可以寫爬蟲,但是工業級爬蟲面臨得場景是比較複雜的,你需要面向的業務需要的庫或者組件如果本身需要不帶,請問你怎麼處理?python基本就不會有太多這種問題。

最後想學python爬蟲的可以點個關注。長期總結爬蟲教程。


火星異端


我覺得原理都是一樣的。Python比PHP實現起來簡單點。Python有爬蟲框架,requests,beautiful。PHP是curl也有xpath擴展。感覺curl還是沒有requests簡單。還有就是爬過數據接著去分析的話,Python就比PHP優勢更明顯了。


分享到:


相關文章: