R語言主要數據探索函數

R語言主要數據探索函數

R語言提供了大量的與數據探索相關的函數,這些數據探索函數可大致分為統計特徵函數與統計作圖函數。統計作圖函數在之前的文章中已經系統地講解過,因此不作過多描述,這裡主要圍繞統計特徵函數進行講解。

統計特徵函數用於計算數據的均值、方差、標準差、分位數、相關係數、協方差等,這些統計特徵能反映出數據的整體分佈。R語言主要的統計特徵函數有:

R語言主要數據探索函數

mean(X)用於計算數據樣本的算數平均數(均值)。樣本X可為向量、矩陣或多維數組。

exp(mean(log(X)))用於計算數據樣本的幾何平均數。樣本X可為向量、矩陣或多維數組。

var(X)用於計算數據樣本的方差。若X為向量,則計算向量的樣本方差;若X為矩陣,則結果為X的各列向量的樣本方差構成的行向量。

sd(X)用於計算數據樣本的標準差。若X為向量,則計算向量的標準差;若X為矩陣,則結果為X的各列向量的標準差構成的行向量。

cor()函數用於計算數據樣本的相關係數矩陣,它的使用格式為:

cor(x, y=NULL,use="everything",method=c("pearson","kendall","spearman"))

其中,use、method參數的取值如下:

R語言主要數據探索函數

下面舉一實例,計算兩個向量的相關係數,代碼如下:

> #生成向量x

> x

> #生成向量y

> y

> #計算x、y的相關係數

> cor(x,y,method="spearman")

[1] 1

cov(X)用於計算數據樣本的協方差矩陣。若X為向量,則計算向量的方差;若X為矩陣,則結果為方差矩陣。

下面舉一實例,計算20*5隨機矩陣的協方差矩陣,代碼如下:

> #生成20*5隨機矩陣

> X

> cov(X)

[,1] [,2] [,3] [,4] [,5]

[1,] 0.9371629395 -0.09227230 -0.05274759 -0.07632824 0.0004699326

[2,] -0.0922722984 0.92348806 0.35200675 -0.01266855 0.1230480549

[3,] -0.0527475929 0.35200675 0.52236069 0.12836634 0.0760034973

[4,] -0.0763282446 -0.01266855 0.12836634 0.36628956 0.0590547760

[5,] 0.0004699326 0.12304805 0.07600350 0.05905478 1.2548288280

moment(X, order)計算數據樣本的指定階中心矩,參數order為正整數。樣本X可為向量、矩陣或多維數組。

下面舉一實例,計算100個隨機數的2階中心矩。在此之前,需要加載e1071包。代碼如下:

> library(e1071)

> #產生100個隨機數

> X

> #計算二階中心矩

> moment(X, 2)

[1] 1.126422


分享到:


相關文章: