​天貓雙十一數據造假了嗎?

根據官方公佈的數據,2019年天貓雙十一全天成交額2684億元。

​天貓雙十一數據造假了嗎?

隨後一個網友在4月份給出的預測被全網瘋傳,因為給出的預測區間(2675億或2689億)與真實值相差無幾,引發天貓雙十一數據造假的猜測。

那麼天貓雙十一數據到底造假了嗎?經過@PITD阿虐 一番研究,結論是沒有,以及沒必要。

​天貓雙十一數據造假了嗎?

預測模型到底靠不靠譜?

神奇網友的預測模型其實很簡單,就是用二次函數(拋物線)和三次函數來擬合曆年的天貓雙十一銷售數據。

具體來說,就是把銷售額當成Y,時間軸(1,2,3,4,5……)當成X,然後把X以及X的平分和三次方,拿來預測Y。本著科普和求真的態度,@PITD阿虐把模型重新做了一遍,發現結果的確很驚人,擬合度接近100%,而且預測值非常接近真實值2684億。

​天貓雙十一數據造假了嗎?

從數據分析的直覺上來說,這個模型是有問題的。因為只有10個樣本點,而未知參數有3-4個。初中生都知道,兩點確定一條直線,三個點確定一條拋物線,而這裡的10個點,也不是很多的樣子。

而這位神奇網友的邏輯在於,因為擬合效果如此完美,所以數據存在造假。如果拿一個第三方(沒有造假動機)的數據來做對比,預測效果也如此之好的話,這個邏輯就不存在了。

美國零售聯合會(National Retail Federation)每一年都會公佈“黑色星期五”的零售數據,因為這一數據是行業數據,以線下零售數據為主,不涉及單個公司的商業利益,基本可以認為是沒有造假動機。

由於2019年“黑色星期五”還沒到來,於是我們拿2008-2017年的10個數據點來預測2018年的數據。在同樣的數據設定下,用同樣的方法,模型的擬合度也都在99%以上,而且預測效果同樣非常接近:二次函數預測值為7070億,三次函數預測值為7101億,而真實值為7175億。

​天貓雙十一數據造假了嗎?

因此,質疑的邏輯已然不成立,天貓的雙十一數據並沒有作假。這個預測模型只是一個小樣本數據的幸運結果,本質上跟那些畫移動平均線的股民沒太多區別。預測對了,“金叉”就成立;預測不對,就換個技術指標再預測……

(看到知乎上很多人在糾結這個時間序列是不是不平穩,是不是存在“偽迴歸”現象……其實這些細節都不重要,而且不能解釋為什麼預測效果這麼好。)

有無數據造假的必要?

數據是否造假,其實很難實錘。

統計裡有個概念叫數據生成過程(Data Generation Process),也即數據是按照一個什麼樣的規律“生成”的。要實錘一個數據造假,就要挖到其數據生產過程,對於神奇網友擬合的拋物線也好,三次函數也罷,終歸不可能是天貓官方捏造數據的“生成器”。

互聯網從業者的命門從來都是那些績效指標(KPI),要數據造假也只是為了拼命完成KPI。就像阿里前員工雲舒說的一樣,阿里要控住交易額太簡單了。

如果離完成KPI還剩下幾個億,多發一點優惠券,多吆喝幾聲就行了,實在沒有造假的動機。

​天貓雙十一數據造假了嗎?

同時,真實的數據往往可以找到很多佐證。天貓雙十一的成交額增速其實一直是放緩的,下降的趨勢與物流數據非常一致,這也側面說明了數據沒有作假。

​天貓雙十一數據造假了嗎?

雙十一為何屢破記錄?

每次雙十一,總是會被很多破紀錄的消息刷屏。對這種“奇蹟”的好奇,可能也是數據造假邏輯得以傳播的原因。

​天貓雙十一數據造假了嗎?

前面說的銷售額,其實是基於電商公佈的GMV數據:GMV=銷售額+取消訂單金額+拒收訂單金額+退貨訂單金額。也就是說即使你取消訂單,它還是會計入GMV的,所以真實的銷售額數據,是很難知道的。

同時,有過雙十一購物經歷的都會知道,複雜的紅包規則和預售模式,其實擠壓了雙十一之前的銷售額。

天貓雙十一的GMV數據,可以佔到全網(淘寶+天貓)的3%左右。天貓雙十一近三年的GMV為1682億,2135億,2684億,而天貓平臺近三年的全年GMV數據為15650億,21310億,26120億(注:數據來源於阿里巴巴財報,其財務年末為3月31日)。如果用天貓雙十一的GMV除以天貓的全年GMV的話,這個比例可以達到10%左右。從這個角度看,一天的GMV就佔到了全年的10%,也許數據本身就挺正常的。

​天貓雙十一數據造假了嗎?

阿里官方的回應

由於數據造假的謠言傳遍網絡,阿里官方開始“律師函警告”。馬雲也在今天的世界浙商論壇上回應:“在這裡我向大家保證,在數據時代、在互聯網時代,每一分錢都極其之準確。

​天貓雙十一數據造假了嗎?

現在,這位神奇網友也刪掉了原來的微博,數據造假一說應該可以被正式認定為造謠了。但是從數據分析的角度來說,這個預測還真是一次大膽的嘗試,希望阿里輕虐這位神奇網友……


分享到:


相關文章: