R語言提供了大量的與數據探索相關的函數,這些數據探索函數可大致分為統計特徵函數與統計作圖函數。統計作圖函數在之前的文章中已經系統地講解過,因此不作過多描述,這裡主要圍繞統計特徵函數進行講解。
統計特徵函數用於計算數據的均值、方差、標準差、分位數、相關係數、協方差等,這些統計特徵能反映出數據的整體分佈。R語言主要的統計特徵函數有:
mean(X)用於計算數據樣本的算數平均數(均值)。樣本X可為向量、矩陣或多維數組。
exp(mean(log(X)))用於計算數據樣本的幾何平均數。樣本X可為向量、矩陣或多維數組。
var(X)用於計算數據樣本的方差。若X為向量,則計算向量的樣本方差;若X為矩陣,則結果為X的各列向量的樣本方差構成的行向量。
sd(X)用於計算數據樣本的標準差。若X為向量,則計算向量的標準差;若X為矩陣,則結果為X的各列向量的標準差構成的行向量。
cor()函數用於計算數據樣本的相關係數矩陣,它的使用格式為:
cor(x, y=NULL,use="everything",method=c("pearson","kendall","spearman"))
其中,use、method參數的取值如下:
下面舉一實例,計算兩個向量的相關係數,代碼如下:
> #生成向量x
> x
> #生成向量y
> y
> #計算x、y的相關係數
> cor(x,y,method="spearman")
[1] 1
cov(X)用於計算數據樣本的協方差矩陣。若X為向量,則計算向量的方差;若X為矩陣,則結果為方差矩陣。
下面舉一實例,計算20*5隨機矩陣的協方差矩陣,代碼如下:
> #生成20*5隨機矩陣
> X
> cov(X)
[,1] [,2] [,3] [,4] [,5]
[1,] 0.9371629395 -0.09227230 -0.05274759 -0.07632824 0.0004699326
[2,] -0.0922722984 0.92348806 0.35200675 -0.01266855 0.1230480549
[3,] -0.0527475929 0.35200675 0.52236069 0.12836634 0.0760034973
[4,] -0.0763282446 -0.01266855 0.12836634 0.36628956 0.0590547760
[5,] 0.0004699326 0.12304805 0.07600350 0.05905478 1.2548288280
moment(X, order)計算數據樣本的指定階中心矩,參數order為正整數。樣本X可為向量、矩陣或多維數組。
下面舉一實例,計算100個隨機數的2階中心矩。在此之前,需要加載e1071包。代碼如下:
> library(e1071)
> #產生100個隨機數
> X
> #計算二階中心矩
> moment(X, 2)
[1] 1.126422
閱讀更多 數據分析和挖掘 的文章