R|數據分析常用R包介紹

本文為 Rstudio 社區文章《Quick list of useful R packages》的中文翻譯。略有增刪。原文鏈接如下:

https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages

這裡面提到的很多R包都是Rstudio公司旗下的,Rstudio公司旗下很多R包都具有良好的使用體驗。其中又有好幾個R包是由Hadley Wickham大神所寫的。Hadley Wickham是R社區非常非常流行的ggplot2包的作者,也是Rstudio公司的首席科學家。如下內容為按照類別整理的數據科學中常用的R包。對於自己感興趣的包,可以在R中安裝它們,並使用help('包名') 查看它們的幫助文檔,文檔中會有關於這些R包的功能介紹和用法指引。

數據加載

  • R可以不需要任何工具,直接用read.csv, read.table, read.fwf等函數讀取加載純文本格式文件

  • readr: 讀取csv等文本格式的數據,效率比R自帶讀取函數要高5~10倍;

  • readxl : 從Excel中讀取加載數據

  • haven : 從SAS/SPSS格式的數據集中讀取加載數據

  • RODBC, RMySQL, RPostgresSQL, RSQLite :從數據庫中讀取加載數據

數據處理

數據處理裡面提到的R包都是Rstudio公司旗下的。

  • dplyr - 必備的數據處理工具,可以對數據集做subset, summarize, rearrange, join等處理

  • tidyr - 利用gather和spread函數將數據集轉化成格式更工整的數據集

  • stringr - 一個簡單易上手的對字符串類型的數據進行正則表達式處理的工具

  • lubridate - 處理日期和時間類型數據的工具

數據可視化

  • ggplot2 - R中最著名的可視化工具包

  • ggvis - 一個可以做基於web的交互可視化工具包

  • rgl - 在R中做3D交互可視化

  • htmlwidgets - 一個在R中快速建立基於JavaScript內核的交互可視化工具包

  • googleVis - 利用Google Chart工具在R中做數據可視化

數據建模

  • car - 做方差分析

  • mgcv - 調用廣義相加模型

  • lme4 / nlme - 調用線性/非線性混合效應模型

  • rendomForest - 調用機器學習中的隨機森林模型

  • multcomp - 做多重比較分析

  • vcd - 實現分類數據做可視化及測試

  • glmnet - 調用Laso and elastic-net迴歸模型及交叉檢驗

  • survival - 做生存分析

  • caret - 訓練迴歸/分類模型的工具包

處理和分析大數據集

  • sparklyr: Rstudio公司開發的在R中使用spark的接口程序庫;

  • sparkR: spark社區提供的訪問spark的R語言程序庫。spark官方還提供Java,Scala,Python語言接口。

可視化報告

  • shiny - 一個用R做交互可視化的應用

  • R Makdown - 用R做數據分析報告的必備工具

  • jupyter notebook:數據科學家最喜歡的編程環境。

  • xtable - 將R中的數據對象(如data frame)轉換成HTML/LaTeX代碼的工具

處理時間序列及金融數據

  • zoo - 提供最流行的格式在R中存儲時間序列對象

  • xts - 靈活處理時間序列數據集的工具

  • quantmod - 下載金融數據並做可視化、技術性分析的工具

處理web數據

  • XML - 用R讀寫XML文件

  • jsonlite - 用R讀寫JSON文件

  • httr - 處理http鏈接的工具集合


分享到:


相關文章: