統計了50萬人的身高數據後發現:大家都愛虛報身高?

對有些人來說,身高是尊嚴,對有些人來說,身高無非數字。

但場主發現,大家對於身高確實挺感興趣的。

本文通過統計在相親網上爬取的50萬用戶的信息,來看看關於身高,能挖出哪些好玩的信息~

技術實現

本文的數據分析和數據可視化全部由ElasticSearch完成。

數據說明

1、數據來源

本次的統計數據來自某相親網站,信息都是用戶自己填寫的。

正常情況下大家報身高都是往高虛報,極少人往矮報吧?所以,本次統計的身高結果應該會比真實情況更高一些,當然,這還只是個人揣測。

樣本用戶生活在北京、上海、廣州和重慶四個城市,選擇這四座城市的原因:

  • 四座城市在祖國的不同方位,收集樣本範圍夠廣
  • 四座城市都是大城市,外來人口較多,彙集了全國各地的人,能在一定程度上體現總體趨勢

2、年齡分佈

先對統計用戶的年齡進行了可視化,x軸是年齡,y軸是人數,波峰是27歲。

統計了50萬人的身高數據後發現:大家都愛虛報身高?

統計用戶的年齡分佈

除此之外,還分別統計了男性和女性的年齡分佈,女性年齡的波峰出現在27歲,男性年齡的波峰出現在29歲。

總體平均年齡:32.332歲

男性平均年齡:33.239歲

女性平均年齡:31.929歲

3、性別分佈

統計了50萬人的身高數據後發現:大家都愛虛報身高?

統計了50萬人的身高數據後發現:大家都愛虛報身高?

本次統計用戶的性別分佈情況

本次統計的用戶中女性佔了大多數。

其實是爬數據的時候先抓取了女性數據,在女性數據抓取完成後才抓取的男性數據,而當看數據庫樣本數據到50萬的時候就把爬蟲停了。

正態分佈

在看統計結果之前,我們先提一下“正態分佈”。

正態分佈(Normal distribution),也稱“常態分佈”,又名高斯分佈(Gaussian distribution)。

正態分佈是一種概率分佈。它是具有兩個參數μ和σ的連續型隨機變量的一種分佈。

這裡就不過多地介紹正態分佈啦,只需知道,身高在樣本數量足夠大的時候應該服從正態分佈(如果有不同的意見,歡迎指正)。

正態分佈的曲線圖應該如下圖所示(中間高,兩邊低,兩側大致對稱),在這種情況下,數據才具有一定的真實性,否則數據就有一定的作假嫌疑。

統計了50萬人的身高數據後發現:大家都愛虛報身高?

正態分佈示意圖

當然目測是不準確的,還需要通過方差、期望等來判斷。不過當人肉眼都能看出一條曲線不符合正態分佈時,那這個數據的真實性就真有待商榷了。

數據展示

好啦,講完正態分佈,我們來看看本次統計樣本的身高分佈圖。

1、男性

統計了50萬人的身高數據後發現:大家都愛虛報身高?

統計用戶中男性的身高分佈情況

可以看到男性身高的分佈情況不那麼符合正態分佈。

波峰出現在170cm,人數是24515人。

身高人數前五名是:

統計了50萬人的身高數據後發現:大家都愛虛報身高?

不知大家發現沒有,這些身高都是極其常見的身高。

揣測一下,在大多數自報身高的情況下——不足170cm同學的都報170cm,不足175cm的都報175cm。

其實大家辦理戶口錄入身高時就是這樣操作的,常見身高就是這幾個數字。所以才在開頭說,大家的真實身高應該會比統計值稍微低一些。

我們來算一下平均值,再把髒數據去除之後,算出來的所有男性的身高平均值是(單位cm):

統計了50萬人的身高數據後發現:大家都愛虛報身高?

2、女性

女性的身高統計方式和男性一樣,就不過多解釋了,這裡直接展示統計結果:

統計了50萬人的身高數據後發現:大家都愛虛報身高?

統計用戶中女性的身高分佈情況

女性身高分佈圖有點狠啊,160cm遠遠超過了其他身高值。

身高人數前五名是:

統計了50萬人的身高數據後發現:大家都愛虛報身高?

女性平均身高(單位cm):

統計了50萬人的身高數據後發現:大家都愛虛報身高?

結論

看完這個統計結果,對比了一下國家公佈的數字,下圖是百度百科公佈的2015年國家統計的身高數據:

統計了50萬人的身高數據後發現:大家都愛虛報身高?

相親網站上的身高數據比國家的統計高出了約6釐米。

到底是因為相親網上的用戶中年輕人較多而年輕人又長得高,還是大家填寫的身高數據水分比較大呢?

還有一種可能就是此次統計的用戶是城市居民,而城市居民的平均身高會相對高一些?

你說呢?歡迎分享你的身高故事

統計了50萬人的身高數據後發現:大家都愛虛報身高?

統計了50萬人的身高數據後發現:大家都愛虛報身高?

“養碼場”

現有技術人80000+

覆蓋JAVA/PHP/IOS/測試等領域

80%級別在P6及以上,含P9技術大咖30人

技術總監CTO 500餘人

統計了50萬人的身高數據後發現:大家都愛虛報身高?


分享到:


相關文章: