旅遊網站上暴增的機票搜索查詢量,可能不是用戶而是“爬蟲”

3月22日,國務院辦公廳發佈“關於調整2019年五一勞動節假期”的通知。通知規定,五一勞動節假期由此前的一天調整為四天。通知發出幾十分鐘後,各個航空公司的B2C網站網站和旅遊網站的機票查詢量暴增,其中國際航班增長了10倍。在暴增的機票查詢數據背後,有普大喜奔的人民群眾,更有非法代理人操控的惡意“爬蟲”。


旅遊網站上暴增的機票搜索查詢量,可能不是用戶而是“爬蟲”

虛假的機票搜索查詢量背後的“元兇”

“爬蟲”是一種通用技術,最早應用在搜索引擎領域。主要是Python語言編寫,用來批量、自動化採集網站數據的程序。

所謂惡意“爬蟲”,就是部分航空服務代理人通過“爬蟲”非法抓取航空公司B2C網站或官方App等平臺上的機票信息,然後非法倒賣給他人以牟取利益。


旅遊網站上暴增的機票搜索查詢量,可能不是用戶而是“爬蟲”

部分代理人利用“爬蟲”爬取下票務信息後,再利用虛假的身份信息預訂機票,但不付款。在航空公司允許的訂票賬期付款內,轉售給真正需要購票的用戶。這就導致部分機票並未售出,但是用戶在航空公司查看時卻顯示已售罄。該行為稱之為“虛假佔座”。

惡意“爬蟲”造成用戶信息的洩露,浪費了航空公司帶寬資源,白白消耗航空查詢費用;而“虛假佔座”不僅給航空公司和用戶帶來經濟損失,損害了用戶的合法權益,也擾亂航空公司的正常運營。更關鍵的是:由此帶來訂票量的波動導致航空公司收益管理系統算法產生誤判,給出不符合實際情況的運價調整,損傷了用戶權益以及平臺的口碑。

監測顯示,在國務院頒佈五一勞動節假期安排後的72小時裡內,多家航空公司網站的“爬蟲”流量暴增。其中,虛假查票佔總查詢總量的36%以上,部分航空公司的虛假查票數字甚至高達99%。

“惡意爬蟲”的幾個技術特徵

1、訪問的目標網頁比較集中:“爬蟲”代理人目標明確,主要是爬取班次、價格、數量等核心信息,因此只瀏覽訪問幾個固定頁面,不訪問其他頁面。

2、查詢訂票等行為很有規律:由於“爬蟲”是程序化操作,按照預先設定的流程進行訪問等,因此呈現出毫無思維、但很有規律、有節奏且持續的行為。

3、同一設備上有規模化的訪問和操作:“爬蟲”的目的是最短時間內抓取最多信息,因此同一設備會有大量離散的行為,包括訪問、瀏覽、查詢等。

4、訪問來源IP地址異常:正常情況下用戶在查詢、購買時,用戶的IP地址比較穩定;“爬蟲”、“虛假佔座”等操作時,IP來源地址呈現不同維度上的聚集,而且瀏覽、查詢、購票等操作時不停變化IP地址。

5、設置UA模擬瀏覽器和頻繁使用代理IP:很多“爬蟲”程序偽裝成瀏覽器進行訪問,比如在程序頭或者UA中默認含有類似python-requests/2.18.4等固定字符串;並且通過購買或者租用的雲服務、改造路由器、租用IP代理、頻繁變更代理IP等進行訪問。

6、操作多集中非業務時間段:“爬蟲”程序運行時間多集中在無人值守階段。此時系統監控會放鬆,而且平臺的帶寬等資源佔用少,爬蟲密集的批量爬取不會對帶寬、接口造成影響。以下是頂象反欺詐中心監測到,凌晨1-5點是惡意“爬蟲”的運行高峰時段。

航空公司B2C2網站該如何“反爬”?

防範惡意“爬蟲”的關鍵就是有效辨別“爬蟲”行為,進而及時阻斷。傳統的防禦手段是通過IP和驗證碼進行限制,但是這兩類手段有非常大的侷限性。

通過IP地址進行限制:當同一IP、同一電腦在一定時間內訪問網站的次數,系統自動限制其訪問瀏覽等。但是,封禁IP的手段可能誤傷真實用戶,而且“爬蟲”幕後的運營者隨時可用購買或者租用的雲服務、改造路由器、租用IP代理、頻繁變更代理IP等方法繞過封禁的規則。

通過驗證碼進行限制:當某一用戶訪問次數過多後,就自動讓請求跳轉到一個驗證碼頁面,只有在輸入正確的驗證碼之後才能繼續訪問網站。但是設置複雜的驗證碼會影響用戶操作,給客戶體驗帶來負面作用。

傳統的手段或措施無法對惡意“爬蟲”進行辨別,通過黑白名單識別、客戶端預防、驗證碼防護和風控決策一套防控體系。有效識別惡意“爬蟲”行為,攔截對敏感數據的爬取,良好防範惡意爬取的風險。


分享到:


相關文章: