04.01 如何抓取天貓和淘寶的運營數據？科技頭條網

2019-04-01 17:53:58 程序之道1

淘寶為了屏蔽網絡爬蟲對自身數據(例如商品價格、月銷量、收藏量、評價、月成交記錄等等)的抓取，往往是採取一種名叫Ajax的技術，在網頁加載完成後，再次加載這些數據，所以通用的網絡爬蟲抓取技術對抓取淘寶的這些數據是無效的。

對通用網站的數據抓取，比如：谷歌和百度，都有自己的爬蟲，當然，爬蟲也都是有程序寫出來的。根據百度百科的定義：網絡爬蟲(又被稱為網頁蜘蛛，網絡機器人)，是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自動索引，模擬程序或者蠕蟲。

不過，淘寶為了屏蔽網絡爬蟲對自身數據(例如商品價格、月銷量、收藏量、評價、月成交記錄等等)的抓取，往往是採取一種名叫Ajax的技術，在網頁加載完成後，再次加載這些數據，所以通用的網絡爬蟲抓取技術對抓取淘寶的這些數據是無效的。針對淘寶本身的特點，天貓、淘寶數據抓取的技術無外乎以下四種技術：

技術向：基於java社會化海量數據採集爬蟲框架搭建

數據收集或比數據挖掘更有意義

1、通用的網頁解析技術，適合解析一些常見的數據，例如：關鍵詞排名數據的抓取、寶貝標題、寶貝下架時間等等。

2、通過瀏覽器插件技術：無論是IE、火狐(Firefox)還是谷歌瀏覽器(Chrome)，都有自己的插件技術，淘寶無論如何增強反爬蟲技術，最終總是要在瀏覽器裡按照正常的數據格式顯示出來的，所以等這些數據(例如商品價格、月銷量、收藏量、評價、月成交記錄等等)在瀏覽器里正常顯示後，那麼通過瀏覽器插件接口就可以抓取到這些數據了。有的公司就是這麼做的。

3、做一個客戶端，在客戶端裡模擬一個瀏覽器，模擬用戶搜索，還是那句話，淘寶無論如何增強反爬蟲技術，最終總是要在瀏覽器裡按照正常的數據格式顯示出來的，現在很多的刷流量的工具就是這麼做的。

4、通過一些網頁分析工具，分析淘寶網頁顯示過程，找到呈現商品價格、月銷量、收藏量、評價、月成交記錄等等的Ajax鏈接，也是模擬一個瀏覽器請求這些Ajax鏈接,從而無須解析網頁，直接解析這些Ajax返回來的數據就可以了。

由於淘寶對數據的抓取採取的措施越來越嚴，只用某一種方法有時是不能達到目的的。例如最簡便的無疑是第三種，通過網頁分析工具，直接找到這些Ajax調用，但是淘寶對通過Ajax鏈接調用的次數是有限制的，調用次數一多，觸發了淘寶反爬蟲引擎，就會出現彈出驗證碼、或者返回“你已經被反爬蟲作弊引擎發現”等等申明，就會抓取不到想要的這些數據了。所以最好的數據抓取方式就是三種方式相結合。

在此我向大家推薦一個大數據開發交流圈：658558542 裡面整理了一大份學習資料，全都是些乾貨，包括大數據技術入門，大數據離線處理、數據實時處理、Hadoop 、Spark、Flink、推薦系統算法以及源碼解析等，送給每一位大數據小夥伴，讓自學更輕鬆。這裡不止是小白聚集地，還有大牛在線解答！歡迎初學和進階中的小夥伴一起進群學習交流，共同進步！

分享到:

閱讀更多 程序之道1 的文章

關鍵字: 抓取網絡爬蟲