對有些人來說,身高是尊嚴,對有些人來說,身高無非數字。
但場主發現,大家對於身高確實挺感興趣的。
本文通過統計在相親網上爬取的50萬用戶的信息,來看看關於身高,能挖出哪些好玩的信息~
技術實現
本文的數據分析和數據可視化全部由ElasticSearch完成。
數據說明
1、數據來源
本次的統計數據來自某相親網站,信息都是用戶自己填寫的。
正常情況下大家報身高都是往高虛報,極少人往矮報吧?所以,本次統計的身高結果應該會比真實情況更高一些,當然,這還只是個人揣測。
樣本用戶生活在北京、上海、廣州和重慶四個城市,選擇這四座城市的原因:
- 四座城市在祖國的不同方位,收集樣本範圍夠廣
- 四座城市都是大城市,外來人口較多,彙集了全國各地的人,能在一定程度上體現總體趨勢
2、年齡分佈
先對統計用戶的年齡進行了可視化,x軸是年齡,y軸是人數,波峰是27歲。
統計用戶的年齡分佈
除此之外,還分別統計了男性和女性的年齡分佈,女性年齡的波峰出現在27歲,男性年齡的波峰出現在29歲。
總體平均年齡:32.332歲
男性平均年齡:33.239歲
女性平均年齡:31.929歲
3、性別分佈
本次統計用戶的性別分佈情況
本次統計的用戶中女性佔了大多數。
其實是爬數據的時候先抓取了女性數據,在女性數據抓取完成後才抓取的男性數據,而當看數據庫樣本數據到50萬的時候就把爬蟲停了。
正態分佈
在看統計結果之前,我們先提一下“正態分佈”。
正態分佈(Normal distribution),也稱“常態分佈”,又名高斯分佈(Gaussian distribution)。
正態分佈是一種概率分佈。它是具有兩個參數μ和σ的連續型隨機變量的一種分佈。
這裡就不過多地介紹正態分佈啦,只需知道,身高在樣本數量足夠大的時候應該服從正態分佈(如果有不同的意見,歡迎指正)。
正態分佈的曲線圖應該如下圖所示(中間高,兩邊低,兩側大致對稱),在這種情況下,數據才具有一定的真實性,否則數據就有一定的作假嫌疑。
正態分佈示意圖
當然目測是不準確的,還需要通過方差、期望等來判斷。不過當人肉眼都能看出一條曲線不符合正態分佈時,那這個數據的真實性就真有待商榷了。
數據展示
好啦,講完正態分佈,我們來看看本次統計樣本的身高分佈圖。
1、男性
統計用戶中男性的身高分佈情況
可以看到男性身高的分佈情況不那麼符合正態分佈。
波峰出現在170cm,人數是24515人。
身高人數前五名是:
不知大家發現沒有,這些身高都是極其常見的身高。
揣測一下,在大多數自報身高的情況下——不足170cm同學的都報170cm,不足175cm的都報175cm。
其實大家辦理戶口錄入身高時就是這樣操作的,常見身高就是這幾個數字。所以才在開頭說,大家的真實身高應該會比統計值稍微低一些。
我們來算一下平均值,再把髒數據去除之後,算出來的所有男性的身高平均值是(單位cm):
2、女性
女性的身高統計方式和男性一樣,就不過多解釋了,這裡直接展示統計結果:
統計用戶中女性的身高分佈情況
女性身高分佈圖有點狠啊,160cm遠遠超過了其他身高值。
身高人數前五名是:
女性平均身高(單位cm):
結論
看完這個統計結果,對比了一下國家公佈的數字,下圖是百度百科公佈的2015年國家統計的身高數據:
相親網站上的身高數據比國家的統計高出了約6釐米。
到底是因為相親網上的用戶中年輕人較多而年輕人又長得高,還是大家填寫的身高數據水分比較大呢?
還有一種可能就是此次統計的用戶是城市居民,而城市居民的平均身高會相對高一些?
你說呢?歡迎分享你的身高故事
“養碼場”
現有技術人80000+
覆蓋JAVA/PHP/IOS/測試等領域
80%級別在P6及以上,含P9技術大咖30人
技術總監和CTO 500餘人
閱讀更多 養碼場 的文章
關鍵字: 年齡 ElasticSearch 場主