「馬蜂窩」被捅,他可能才是最成功的搬運工

互聯網時代,最不缺的就是內容,但最稀缺的也是內容。

近日,一個名為“乎睿數據”的團隊發現在線旅遊平臺馬蜂窩的數據異常,該團隊通過抓取大眾點評、藝龍、攜程等網站與馬蜂窩進行對比,在馬蜂窩上發現了7454個抄襲賬號,這數千個賬號合計抄襲了572萬條餐飲點評,1221萬條酒店點評,佔馬蜂窩官網聲稱總點評數的85%。

一個名為“小聲比比”的微信公眾號發佈了該團隊的數據分析結果,引發多方關注。

今日,馬蜂窩發佈聲明稱,已對涉嫌虛假點評的賬號進行清理,自媒體文章所述的馬蜂窩用戶數量與事實和第三方機構數據都嚴重不符。

事實上,內容是馬蜂窩平臺主打的特色,很多用戶使用和喜愛馬蜂窩也正是因為其平臺上的原創內容。

今日晚間消息,北京馬蜂窩網絡科技有限公司已向北京市朝陽區人民法院提起訴訟,起訴數據分析團隊方深圳乎睿數據有限公司、自媒體作者丁子奎名譽侵權。

有意思的是,據界面報道,該自媒體人今晚將對馬蜂窩聲明中提到的“被查證的有組織攻擊行為”的說法做出回應。

馬蜂窩公司相關人士對此向《國際金融報》記者表示,馬蜂窩後續也會有相關回應。

馬蜂窩官網顯示,平臺自2006年上線運營,用戶數持續攀高,大部分用戶來自一線大城市,馬蜂窩凝聚的是一個高質量的旅遊愛好者群體。依靠註冊用戶提供的大量一手信息,馬蜂窩已先後製作推出了各類目的地旅遊攻略路書,路書設計精緻、新穎,路書內容涵蓋當地吃住行遊購娛等各方面豐富詳實的旅遊信息。

公開資料顯示,馬蜂窩自2011年以來已經獲得了4輪融資,投資者中不乏今日資本、啟明創投、高瓴資本、淡馬錫等大型投資公司。

而此次指控馬蜂窩內容虛假的數據團隊則非常年輕。記者查閱企查查、啟信寶發現,深圳市乎睿數據有限公司成立於2018年1月11日,註冊資本102萬,其“乎睿”商標註冊於今年5月。

10月20日晚間,“小聲比比”發佈上述文章,稱乎睿數據抓取了馬蜂窩上116萬家餐廳,並抽取了三分之一的樣本進行對比分析,最終在馬蜂窩上發現了7454個抄襲賬號,平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評,合計抄襲了572萬條餐飲點評,1221萬條酒店點評,佔到馬蜂窩官網聲稱總點評數的85%。


“馬蜂窩”被捅,他可能才是最成功的搬運工

該團隊稱對抽取的賬號制定了一個非常嚴格的“抄襲標準”——一字不差的抄襲,才算抄襲,十句話有一句不同,就不算抄襲,以這個為抄襲標準,同時,以抄襲150個不同的大眾點評賬戶為”抄襲賬號“標準。

該團隊給出了幾點抄襲實錘:

這些抄襲賬號出現性別和同一天所在地點自相矛盾的情況;

部分賬號抄襲Yelp上的評論時調用了谷歌翻譯,並將翻譯錯誤一併搬運;

部分抄襲賬號還搬運了類似亂碼、廣告、新聞等不該抓取的內容。


“馬蜂窩”被捅,他可能才是最成功的搬運工

此外,該自媒體文章還稱,除了這七千多個賬號,還存在15000個賬號在2015年中旬突然活躍,並在2016年初同時沉寂;且馬蜂窩的大部分用戶集中在週中寫點評,一到週末便斷崖式下跌。

“馬蜂窩”被捅,他可能才是最成功的搬運工

21日晚間,“小聲比比”再度發文稱馬蜂窩開始毀滅證據並放出了7454位抄襲賬號主頁,記者隨即點擊了部分主頁發現,這些用戶的點評內容均為空白。

今日,馬蜂窩發佈聲明稱,馬蜂窩是旅遊平臺而非本地生活服務網站,用戶分享的主要載體為遊記、攻略與問答,馬蜂窩的 UGC 內容數據中,遊記和攻略佔比為 78.91%,嗡嗡(旅行故事)佔比 7.92%,問答佔比 10.26%,而點評內容在馬蜂窩整體數據量中僅佔比 2.91%,涉嫌虛假點評的賬號數據在整體用戶中的佔比更是微乎其微,馬蜂窩已對這部分賬號進行清理。

對於大量用戶在2015年集中活躍,馬蜂窩解釋稱,2016年以前,馬蜂窩曾激勵用戶發表評論,點評數據出現快速增長。

馬蜂窩表示,公司平均每週處理 26000 條違規廣告信息,查封 15000 個違規賬號。自媒體將不法商家的違規行為歸結於馬蜂窩,與事實嚴重不符。

針對聲明中所稱的“已被查證的有組織攻擊行為”等內容,記者試圖聯繫馬蜂窩公司相關人士尋求具體解釋,對方回應稱“目前以聲明內容為準”。

艾媒諮詢首席分析師張毅向記者表示,主打內容的互聯網平臺是通過內容來反映用戶的活躍度,利用抄襲或搬運的方法來造成虛假繁榮對平臺來說確實是一種引導消費的手段,但是一旦被曝光,將會對平臺造成很大的影響。

二、技術人士:網絡爬蟲抓取評論很簡單

一位互聯網從業者向《國際金融報》記者表示,簡單來講,此次事件,就是利用一些技術手段,用機器代替人,進行重複性勞動,類似新聞聚合類的網站、搜索引擎、論壇廣告等都會使用爬蟲技術。

他表示,項目在冷啟動的時候會用爬蟲數據,自己網站活躍度不高,UGC不夠,只能每天去爬點數據過來。

一位後端程序員在瀏覽了大眾點評和攜程之後稱,網絡爬蟲想要獲取評論數據很簡單,這兩個網站本身的爬取難度不高,很多開源框架在網上有很清楚的教程,成本很低,甚至不需要學會爬蟲的開發過程。

該技術人員向《國際金融報》記者介紹了具體的爬取過程——網絡爬蟲先設置好目標網站的url,這些頁面的佈局都是有固定格式的,爬蟲工作時,按照事先設置好的爬取規則,抓取網頁上的特定元素,元素內就包含著目標數據。

關於馬蜂窩用戶評論中出現的亂碼、廣告等內容,該技術人士稱,這是因為網站識別出來是爬蟲了,就返回一些設置好的信息給爬蟲,爬蟲誤以為是真實內容。

他還表示,爬蟲和反爬蟲永遠在更新,但是爬蟲還是會更先進一些,更快地產生應對策略,有些爬蟲還能把自己偽裝成百度,對其他網站進行訪問,這樣能更安全地避開反爬蟲策略。

三、 內容搬運工層出不窮

從上個世紀90年代起,互聯網就面臨著信息爆炸的問題,從這個角度看,在互聯網時代,最不缺的就是內容,但是正因為信息氾濫,原創內容、優質內容才是這個時代所稀缺的,原創內容生產者也成為各大內容平臺所爭搶的資源。

今年7月,小紅書接到大量用戶反映稱,大眾點評疑冒用小紅書用戶名稱賬號,批量建立虛假賬號,抄襲及搬運用戶在小紅書發佈的原創筆記。大眾點評隨後稱是新上線試運營的推薦欄目在未經授權的情況下對相關內容進行了違規轉載。

不僅是文字和圖片內容,視頻內容也逃不過被抄襲和搬運。

今年5月,抖音海外版Tik Tok第一季度登頂蘋果商店下載全球第一,引發張一鳴和馬化騰在朋友圈掐架,張一鳴在評論區中的一句“微信的藉口封殺,微視的抄襲搬運擋不住抖音的步伐”似乎在暗指微視搬運抖音內容。

隨著短視頻行業的火爆,記者在網上搜索“搬運短視頻”時發現了大量關於如何搬運視頻、如何去水印的教程。

抄襲、搬運內容事件頻發,平臺、用戶維權也有一定的難度。關於此次馬蜂窩評論內容疑似搬運事件,北京康達律師事務所韓驍律師向記者表示,根據《著作權法》,合理使用必須具有一定的正當目的或特殊的情形,如果馬蜂窩涉嫌抄襲用戶評論,其具有一定的營利目的,一般不應被認為是合理使用。

但是從事件本身來看,馬蜂窩是否構成侵犯著作權的行為,還需要充足的證據證明。韓驍律師稱,目前國際上普遍認可的判斷原則是實質性相似+接觸原則,即如果被控侵權作品的作者曾接觸過原告受著作權保護的作品,同時該被控侵權作品又與原告的作品存在內容上的實質性相似,除非有合理使用等法定抗辯理由,否則即可認定其為侵權作品。因此不論是判斷馬蜂窩是否構成侵權,還是類似內容平臺的抄襲,都需要對侵權行為進行舉證,從而判斷是否構成侵權。


分享到:


相關文章: