從App Annie說起,扒一扒互聯網數據監測的準確性

近日,偶然看到一篇名為《二問神州:對神州專車財務數據及估值的質疑》的文章,據說是滴滴的一個天使投資人朱嘯虎寫的。本人對滴滴和神州的恩怨情仇不感興趣,也不想摻和。不過,一個投資人跳出來直接攻擊競爭對手,畢竟比較奇葩。


結果看過之後,一個技術問題卻意外引發了本人的“八卦”慾望。在朱嘯虎的文章中,援引了國外的移動應用數據監測平臺App Annie和國內的移動數據監測平臺Trust Data的監測數據,藉以證明神州專車活躍用戶數並沒有明顯增長,並表示,“難道說App Annie和Trust Data的數據都錯了?”

槽點來了!作為一個專門從事移動數據監測工作的技術人員,本人可以明確告訴大家,這是完全有可能的。

從App Annie說起,扒一扒互聯網數據監測的準確性

誤差錯誤難避免 App Annie監測谷歌成業界笑柄

先說一下App Annie的算法模式。本來,所有app應用在蘋果 App Store 的應用排名和開發者的應用表現在蘋果官方的數據中都會體現出來,只是用起來不夠方便,數據也比較單一,保存時間有限。APP Annie正是基於這樣的需求,自建了建立數據平臺,然後通過關鍵字搜索,從App Store上抓取相應數據,並利用模型算法作出對應分析。

當然,還有一種情況,是開發者在APP Annie平臺上綁定自己的蘋果開發者賬號,相當於將賬號分享給了APP Annie,然後APP Annie通過這些賬號獲取匿名數據點建立自己的數據模型,再通過機器學習,就可以估算出應用市場的下載量及收入估算值等數據,再通過關鍵字搜索分析等功能,對應用做出數據分析。

所以關於神州專車的數據首先就有一個問題,如果神州和蘋果從未將自己的真實數據提供給APP Annie,雖然APP Annie採取了模型算法進行預估,但這種預估與實際情況有較大差距,這是此類監測的普遍性問題。

造成監測數據誤差甚至錯誤的原因,首先是由於不同的平臺對於新安裝和版本更新、下載計數策略的不同;其次,有一些平臺自己的數據也會不準,各平臺經常會做一些更新,從而導致數據不準確;此外,特別是ASO關鍵詞那塊的數據,數據抓取複雜度還是比較高,因為關鍵詞的數量巨大,通常以百萬計,而每天都需要抓取更新,出現問題也就在所難免。

APP Annie最著名的一個“笑話”;就是google公司所有的應用月下載量還不如獵豹多,獵豹傲居top2十來個月,google公司卻經常遊離在top5之外。一時成為業界笑柄。在這個行業內,類似的笑話還有不少,在年初,就發生過“今日頭條與艾瑞諮詢就數據真實性互掐”事件,最後以艾瑞認栽收場。

不過,即便存在很多問題,但業內公認,APP Annie在國外做得還算不錯;當然,在國內的話,APP Annie這方面的數據還是有點差距的。

從App Annie說起,扒一扒互聯網數據監測的準確性

Trust Data長期力挺滴滴神州數據與其他機構反差強烈

至於Trust Data,作為一家國內公司,其技術實力和數據的可信度較APP Anni都有不小的差距。我查了一下Trust Data關於網約車市場活躍用戶的數據,其中滴滴的數據與其他研究機構的數據相比,長期以來都高得出奇;即便是在業內出現重大負面消息時(比如現在的熱點事件“網約車新政”),滴滴的數據也照常增長,這顯然不符合邏輯。

再比如,在朱嘯虎這篇文章中援引的Trust Data數據,神州專車的3月份的活躍用戶數據是下降的,且日活躍用戶僅10萬多;但國內知名大數據研究公司Quest Mobile發佈的3月份國內用車服務APP研究報告則顯示,神州專車的日活躍用戶數為27.2萬,增速明顯,同比增長了16.7%。

還有,Trust Data宣稱自己的數據來自於自建的日活躍用戶超過3000萬(月活躍用戶超過1.3億)的樣本集,這表明其採取的是取樣分析,去樣本庫的覆蓋範圍,也直接影響數據的準確度。

還有一個原因就是,這些公司都是商業公司性質,需要售賣數據、研究報告和尋求商業贊助。而為了商業目的修改數據,在業內也是常有的事。所以整體來說,目前互聯網監測的數據體系絕對是野蠻且初級的,行業內沒有哪家公司敢說自己的數據絕對沒問題。


分享到:


相關文章: