昨天給大家分享了我國什麼地方吃貨最多的分析結果,今天給大家上R語言分析過程和代碼。
本文需要用到的R包有reshape2、plyr、ggplot2、Hmisc、coefplot。
1、整理數據
由於我們下載到的數據是好幾個單表,為了後期數據處理方便我們需要合成一個單表。
如圖列命都是中文命名,為了方便R語言程序處理我們把列命命名為“zone、y2016、y2015、y2014、y2013,如下圖
從表中我們可以發現對於特定的城市,每年的數值在不同的列中,也就是所謂的交叉表,雖然方便人類使用,但對於我們接下來用ggplot2作圖和數據分析算法不理想,我們想讓他設置為每一行代表一個單獨的城市-指標-年,因此我們使用reshape包中的melt函數來“融化”這些數據,使其變成單獨的城市-年-指標
其他表同樣的處理,之後就是用plyr包中的join函數按照“zone”和“year”兩個字段把所有錶鏈接起來。
最後處理好的數據是這樣的
計算人均消費支出的數據、全部消費與收入比、飲食消費與全部消費比
到這裡我們的數據全部處理好了,接下來就是數據可視化的操作,用到ggplot2包製作圖像。
1、各省市人均收入
人均收入箱線圖
2、連鎖餐飲企業門店個數
4、人均消費率
5、用於餐飲的消費率
建立數據模型
1、構建人均消費和收入率的模型
2、構建連鎖門店數量和消費率的模型(和上面代碼一樣,這裡也沒有封裝,直接重複使用代碼)
3、構建餐飲行業從業人數和消費率的模型
4、構建餐飲消費率與人均收入、門店個數、和從業人數的模型
閱讀更多 畢業零距離 的文章