R 數據的預處理:數據的讀寫

比較兩種寫入方式 write. *(), write_()
<code># 先簡單建個數據框 

# 產生一組隨機數,從0~1 共10^6個,共1000rows
readFile = as.data.frame(matrix(runif(10 ^ 6 ,0,1), nrow=1000))

# 如果設定的名字不變,重複寫入的時候,新檔會覆蓋舊檔
# 比較兩種寫法的速度/<code>
  1. write.csv
<code>system.time({ rnum = write.csv(test,"test.csv")}) 
# 查看一下寫入的文檔大小
file.info("rnum.csv")$size /<code>


  1. write_csv
<code># 刪除變量,方便再次讀取
rm(rnum)
# 先載入readr包
library(readr)
system.time({ rnum = write_csv(test,"test.csv")})/<code>


<code># 結果
# write.csv()
# user system elapsed
# 1.017 0.039 1.065
# write_csv()
# user system elapsed
# 0.248 0.027 0.28/<code>

可以看出來readr包中的write_csv()明顯要快於write.csv(),這在寫入較大文件時則會更為明顯。

比較三種讀取方式 read.*(), fread, readr
  1. read.csv
<code># 查看read.csv的讀取速度
system.time({rnum = read.csv(file = "rnum.csv", header=T)})/<code>
  1. fread
<code># 刪除變量
rm(rnum)
# data.table包中的fread讀取資料
library("data.table")
system.time({ rnum = fread(input="rnum.csv")})/<code>


  1. read_csv
<code># 刪除變量
rm(rnum)
# readr包中的read_*來讀取資料,寫入的話用write_*
system.time({ rnum = read_csv("rnum.csv")})/<code>


<code># 結果
# read.csv
# user system elapsed
# 2.427 0.044 2.479
# fread
# user system elapsed
# 0.082 0.007 0.089
# read_csv
# user system elapsed
# 0.760 0.043 0.837 /<code>

可以看出讀取速度最快的就是fread,其次是read_csv。

備註:

“用戶”是消耗在應用程序(非操作系統部分)執行的時間。

“系統”是底層操作系統執行(例如磁盤讀寫等)部分的時間。

“流逝”是經過的總時間(可以認為是前兩者的總和)。一般優化時主要關注“用戶”的時間。


【數據小鹽罐兒】一個“鹹”的無聊的數據分析公眾號,

不定期分享一些有趣好玩的項目以及大量的學習資源。


分享到:


相關文章: