獨家|數據造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?

獨家|數據造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?


一、馬蜂窩“造假門”事件所暴露的行業潛規則


上週,估值據傳已高達25億美元、新一輪融資接近尾聲的明星獨角獸公司馬蜂窩陷入了數據造假醜聞。一個由3名年輕海龜組成不足1年、名不見經傳的乎睿數據把馬蜂窩涉嫌數據造假的行為逐條拎出來在社交媒體上傳播。根據乎睿數據團隊提供的信息,馬蜂窩2100萬條真實點評中,有1800萬條是通過機器人抄襲自點評、攜程等競爭對手;其在馬蜂窩上發現了7454個抄襲賬號,平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評,佔到馬蜂窩官網聲稱總點評數的85%。而馬蜂窩則發表聲明稱乎睿數據“歪曲事實”,屬於“有組織攻擊行為”,已起訴該公司並獲得立案。同時,乎睿數據回應,目前已掌握大量證據,期待法院作出的公正裁決,因為“這個案子最終將決定未來中國二十年的互聯網走向”。


獨家|數據造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?


本次事件的雙方你來我往數個回合,一個認為自己鐵證如山,一個咬定“明顯抹黑”,唯獨真正的“受害者”——被“抄襲”了數據的攜程、去哪兒等企業集體陷入沉默。因為當前數據造假、爬蟲刷屏是司空見慣的行為,已成為互聯網行業的客觀現狀,攜程、去哪兒自身的用戶點評數據來源都難以解釋清楚。目前,案件最終結果尚未定論,但司法界人士認為,馬蜂窩訴乎睿數據的案子具有典型意義。該案件一方面反應了當下企業對於大數據基礎性資源的激烈爭奪,另一方面也暴露出我國在數據權責安全相關的法制法規建設上亟待加強。

二、“潛規則”背後的技術:網絡爬蟲與反爬蟲


1、網絡爬蟲技術

爬蟲最早源於搜索引擎,它是一種按照一定的規則,自動從互聯網上抓取信息的程序,又被稱為爬蟲,網絡機器人等。按爬蟲功能可以分為網絡爬蟲和接口爬蟲,按授權情況可以分為合法爬蟲和惡意爬蟲。如今數據資源越來越珍貴,利用爬蟲技術爬取有價值的數據,成為很多公司彌補自身先天數據短板、提高自身估值的不二選擇。

針對此次馬蜂窩事件,很多開發者承認,從其他網站或APP上抓取點評數據非常簡單,在技術上沒有任何難度,隨便一個爬蟲工程師就可以做到。有的開發者說,“不涉及到數據庫,直接爬頁面就行了”、“可以批量處理,通常是機器+人工編輯”。

很多人好奇報道中稱馬蜂窩2100萬條“真實點評”中,有1800萬條都是通過機器人從競品網站抄襲過來的,究竟是如何做到的。邦盛科技機器防禦專家在接受媒體採訪時說,目前平臺均是通過網絡機器人技術從其他網站爬取信息,並抄襲到自己的平臺。當前大部分的網絡機器人是通過直接發起http請求的方式獲取網頁資源,無js引擎,會進行一定的偽裝,並使用動態IP來躲避反爬蟲措施。隨著網站防護能力的不斷提升,網絡爬蟲會逐漸向瀏覽器內核型進化,從而具備執行js的能力,並進一步的擬人化,增加被識別的難度。

目前,爬蟲技術已經遍佈網絡,並且越是涉及個人切身利益的地方,越是佈滿了爬蟲。


獨家|數據造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?


根據之前國外網絡安全公司的研究報告,50%左右的網絡流量來自網絡機器人,遍佈各類網站,包括出行、社交、OTA、電商、招聘、銀行、政府等。

例如出行類中的12306票務信息被各類搶票軟件瘋狂地爬取,高峰時刻每天的訪問量達到千億次。在社交類中,通過網絡爬蟲技術可以指揮一幫網絡機器人關注某人的微博、公眾號等,進行點贊、關注或者留言,製造大量的殭屍粉。在電商類中,比如在“比價平臺”“聚合電商”和“返利平臺”等平臺上,當用戶搜索一個商品時,這類聚合平臺會自動把各個電商的商品都放在你面前供你選擇,同樣利用的是爬蟲技術。

此外,馬蜂窩所在的OTA領域同樣也是爬蟲重災區。某大型互聯網公司運營總監表示,儘管不知道馬蜂窩被指控的刷評行為是否屬實,但業內出現刷評行為的根本原因是出於競爭壓力,是幾家在線旅遊網站出於對UGC(用戶生成內容)市場的爭奪,以及維護平臺活躍度的需要。

一位從事搜索引擎開發的創業者表示,從其他平臺抓數據的目的,就是為了製造流量很大的假象,但爬蟲抓數據的行為很容易識別,就看資本方盡調的時候是否嚴格。

2、反爬蟲技術

爬蟲與反爬蟲領域,一直是互聯網最激烈的對抗戰場之一。

目前,企業經典的對抗方式大概有幾種:圖片驗證碼、滑塊驗證、封禁 IP、給訪問者增加一些加解密運算,耗費爬蟲的程序資源等等。除了這些小模塊,企業還可以通過 WAF(Web 應用防火牆)來防護,WAF的功能就是通過設置一些規則,攔截掉那些不符合規則的請求。


獨家|數據造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?


不過,隨著爬蟲技術的演進,常規的反爬蟲手段已經無法有效阻止爬蟲的訪問。

據安全專家介紹,近年來通過多維度、多層次的檢測,並輔以後端大數據分析來識別網絡機器人逐漸興起併成為主流。利用設備指紋技術從設備維度定位網絡機器人,人機識別技術從操作行為判別機器人點擊和自動化點擊,而後端大數據實時分析技術可根據長週期數據進行復雜規則決策。綜合以上手段,可有效偵測爬蟲行為,保護網站的信息資產不被爬取和洩露。

此外,人工智能技術的加入讓這場對抗爬蟲的常規戰逐漸升級為“智能戰”,而且戰線向雲端轉移。

此前,騰訊雲鼎實驗室通過深度學習技術對海量真實惡意爬蟲流量進行分析,認為將 AI 技術引入反爬蟲領域能起到極好的補充效果,將是未來此類對抗領域的趨勢所在。目前,騰訊雲網站管家(WAF)聯合雲鼎實驗室基於海量真實爬蟲流量建立更為通用的爬蟲識別模型,已卓有成效。除了騰訊雲,還有很多其他的雲安全廠商,也開始主推反爬蟲的技術。

三、如何解決行業數據造假的普遍現狀?


事實上,任何新技術在引導行業變革時,由於自由發展,最開始都會出現一片亂象。唯有相關法律法規的健全,才會對所有從業者行為有所規範,才會對行業的健康發展保駕護航。

目前,國家並沒有一項明確法律條文規定爬蟲刷屏是否違法。不過,由於搜索引擎的存在,所以爬取已經允許公開的數據應該是合法的。搜索引擎領域一直遵守的是Robots協議。搜索引擎的原理是通過一種爬蟲spider程序,自動蒐集互聯網上的網頁並獲取相關信息。而鑑於網絡安全與隱私的考慮,每個網站都會設置自己的Robots協議,來明示搜索引擎,哪些內容是願意和允許被搜索引擎收錄的,哪些則不允許。搜索引擎則會按照Robots協議給予的權限進行抓取。Robots協議代表了一種契約精神,互聯網企業只有遵守這一規則,才能保證網站及用戶的隱私數據不被侵犯。

針對此次馬蜂窩事件,法律專家認為,如果平臺方未經允許把其他平臺的客戶評論扒來進行商業化運營,這顯然是違法行為。

一方面,內容的作者是用戶,發表在平臺上就構成了平臺的一部分。大量使用其他平臺未獲授權的內容,而且還有競爭關係,就構成了對其他平臺的侵害,這違反了《反不正當競爭法》的第二條:經營者在生產經營活動中,應當遵循自願、平等、公平、誠信的原則,遵守法律和商業道德。

另一方面,發佈大量虛假信息,誤導消費者,又違反了《消費者權益保護法》中關於消費者知情權的規定。該權益在一般情況下可由消費者協會或者是工商管理部門來代替消費者行使,可以依據相關規定對企業進行查處。

另外,我們還能通過類似的事件來發現司法判決的要旨。2016年一審宣判的“大眾點評訴百度案”中,大眾點評以百度公司大量抄襲、複製自己點評信息的不正當競爭行為,向上海浦東新區法院提起訴訟。

根據判決書,法院在百度行為是否具有不正當性的分析中提到,點評信息是核心資源之一,具有商業價值。“百度未對大眾點評網中的點評信息作出貢獻,卻在百度地圖和百度知道中大量使用,其行為具有明顯的’搭便車’、’不勞而獲’的特點。”最終判定結果,可想而知是大眾點評勝訴,百度違反公認的商業道德和誠實信用原則,給大眾點評造成了實質損害,構成不正當競爭。2017年,百度的上訴被駁回,維持了原判。

回看此次馬蜂窩事件,如果案情最終能促使相關法律法規得以補充完善,該事件確實將如乎睿數據所說的振奮人心:“這個案子最終將決定未來中國二十年的互聯網走向”。

四、爬蟲集中所在地,最能反映社會問題



獨家|數據造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?


獨家|數據造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?


在這張爬蟲光顧top50公司排行榜裡,除了google、Youtube、ask、亞洲航空這四家企業之外,其他全是中國企業或機關。

細看此圖,我們會非常輕易地找到這些企業或機關上榜原因。或許是因為國內東西地域發展不平衡、城鄉貧富懸殊太大、公共假期設置不合理等諸多原因,讓很多漂泊在外工作的人逢年過節買票回家成為難題,這才把12306推上爬蟲榜第一名;或許是我們的信用體系還不是很完善,騙子和老賴還可以繼續矇騙新人,所以才催生了爬蟲收集法院公告,形成民間信用記錄的服務,於是將“最高人民法院公告查詢”推上第八名;此外,由於良好的醫療資源分佈不均導致的掛號難、看病難問題,催生的黃牛用爬蟲搶號現象問題有多麼嚴峻,也在此表中有所表現。

爬蟲是趨利的,而爬蟲覺得有利益的地方,往往是我們不忍提及的隱痛。自不用說那些虛假廣告、衝榜刷量,背後都有爬蟲的影子。當一個行業中所有人都在彼此心照不宣地爬取數據以作商用時,我們無法因此斷言爬蟲技術有罪或者無罪。真正該反省的,或許應該是制度是否合理、價值觀是否正確才對。

— 完 —

關注清華-青島數據科學研究院官方微信公眾平臺“THU數據派”及姊妹號“數據派THU”獲取更多講座福利及優質內容。


分享到:


相關文章: