本文為 Rstudio 社區文章《Quick list of useful R packages》的中文翻譯。略有增刪。原文鏈接如下:
https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages
這裡面提到的很多R包都是Rstudio公司旗下的,Rstudio公司旗下很多R包都具有良好的使用體驗。其中又有好幾個R包是由Hadley Wickham大神所寫的。Hadley Wickham是R社區非常非常流行的ggplot2包的作者,也是Rstudio公司的首席科學家。如下內容為按照類別整理的數據科學中常用的R包。對於自己感興趣的包,可以在R中安裝它們,並使用help('包名') 查看它們的幫助文檔,文檔中會有關於這些R包的功能介紹和用法指引。
數據加載
R可以不需要任何工具,直接用read.csv, read.table, read.fwf等函數讀取加載純文本格式文件
readr: 讀取csv等文本格式的數據,效率比R自帶讀取函數要高5~10倍;
readxl : 從Excel中讀取加載數據
haven : 從SAS/SPSS格式的數據集中讀取加載數據
RODBC, RMySQL, RPostgresSQL, RSQLite :從數據庫中讀取加載數據
數據處理
數據處理裡面提到的R包都是Rstudio公司旗下的。
dplyr - 必備的數據處理工具,可以對數據集做subset, summarize, rearrange, join等處理
tidyr - 利用gather和spread函數將數據集轉化成格式更工整的數據集
stringr - 一個簡單易上手的對字符串類型的數據進行正則表達式處理的工具
lubridate - 處理日期和時間類型數據的工具
數據可視化
ggplot2 - R中最著名的可視化工具包
ggvis - 一個可以做基於web的交互可視化工具包
rgl - 在R中做3D交互可視化
htmlwidgets - 一個在R中快速建立基於JavaScript內核的交互可視化工具包
googleVis - 利用Google Chart工具在R中做數據可視化
數據建模
car - 做方差分析
mgcv - 調用廣義相加模型
lme4 / nlme - 調用線性/非線性混合效應模型
rendomForest - 調用機器學習中的隨機森林模型
multcomp - 做多重比較分析
vcd - 實現分類數據做可視化及測試
glmnet - 調用Laso and elastic-net迴歸模型及交叉檢驗
survival - 做生存分析
caret - 訓練迴歸/分類模型的工具包
處理和分析大數據集
sparklyr: Rstudio公司開發的在R中使用spark的接口程序庫;
sparkR: spark社區提供的訪問spark的R語言程序庫。spark官方還提供Java,Scala,Python語言接口。
可視化報告
shiny - 一個用R做交互可視化的應用
R Makdown - 用R做數據分析報告的必備工具
jupyter notebook:數據科學家最喜歡的編程環境。
xtable - 將R中的數據對象(如data frame)轉換成HTML/LaTeX代碼的工具
處理時間序列及金融數據
zoo - 提供最流行的格式在R中存儲時間序列對象
xts - 靈活處理時間序列數據集的工具
quantmod - 下載金融數據並做可視化、技術性分析的工具
處理web數據
XML - 用R讀寫XML文件
jsonlite - 用R讀寫JSON文件
httr - 處理http鏈接的工具集合
閱讀更多 數據分析與可視化 的文章