用Jupyter+pandas數據分析，6種數據格式效率對比

佚名

2021-03-25 06:25:23

在使用Python進行數據分析時，Jupyter Notebook是一個非常強力的工具，在數據集不是很大的情況下，我們可以使用pandas輕鬆對txt或csv等

純文本格式數據進行讀寫。

然而當數據集的維度或者體積很大時，將數據保存並加載回內存的過程就會變慢，並且每次啟動Jupyter Notebook時都需要等待一段時間直到數據重新加載，這樣csv格式或任何其他純文本格式數據都失去了吸引力。

本文將對pandas支持的多種格式數據在處理數據的不同方面進行比較，包含I/O速度、內存消耗、磁盤佔用空間等指標，試圖找出如何為我們的數據找到一個合適的格式的辦法！

格式說明

現在對本文進行對比的幾種數據格式進行說明。

CSV

：最常用的數據格式

Pickle

：用於序列化和反序列化Python對象結構

MessagePack

：類似於json，但是更小更塊

HDF5

：一種常見的跨平臺數據儲存文件

Feather

：一個快速、輕量級的存儲框架

Parquet

：Apache Hadoop的列式存儲格式

指標說明

為了找到格式來存儲數據，本文選擇以下指標進行對比。

size_mb

：帶有序列化數據幀的文件的大小

save_time

：將數據幀保存到磁盤所需的時間

load_time

：將先前轉儲的數據幀加載到內存所需的時間

save_ram_delta_mb

：在數據幀保存過程中最大的內存消耗增長

load_ram_delta_mb

：數據幀加載過程中最大的內存消耗增長

注意，當我們使用有效壓縮的二進制數據格式(例如Parquet)時，最後兩個指標變得非常重要。它們可以幫助我們估算加載串行化數據所需的RAM數量，以及數據大小本身。我們將在下一部分中更詳細地討論這個問題。

對比

現在開始對前文介紹的5種數據格式進行比較，為了更好地控制序列化的數據結構和屬性我們將使用自己生成的數據集。

下面是生成測試數據的代碼，我們隨機生成具有數字和分類特徵的數據集。

數值特徵取自標準正態分佈。分類特徵以基數為C的uuid4隨機字符串生成，其中2 <= C <= max_cat_size。

<code>def generate_dataset(n_rows, num_count, cat_count, max_nan=0.1, max_cat_size=100): dataset, types = {}, {} def generate_categories(): from uuid import uuid4 category_size = np.random.randint(2, max_cat_size) return [str(uuid4()) for _ in range(category_size)] for col in range(num_count): name = f'n{col}' values = np.random.normal(0, 1, n_rows) nan_cnt = np.random.randint(1, int(max_nan*n_rows)) index = np.random.choice(n_rows, nan_cnt, replace=False) values[index] = np.nan dataset[name] = values types[name] = 'float32' for col in range(cat_count): name = f'c{col}' cats = generate_categories() values = np.array(np.random.choice(cats, n_rows, replace=True), dtype=object) nan_cnt = np.random.randint(1, int(max_nan*n_rows)) index = np.random.choice(n_rows, nan_cnt, replace=False) values[index] = np.nan dataset[name] = values types[name] = 'object' return pd.DataFrame(dataset), types /<code>

現在我們以CSV文件保存和加載的性能作為基準。將五個隨機生成的具有百萬個觀測值的數據集轉儲到CSV中，然後讀回內存以獲取平均指標。並且針對具有相同行數的20個隨機生成的數據集測試了每種二進制格式。

同時使用兩種方法進行對比：

1.將生成的分類變量保留為字符串2.在執行任何I/O之前將其轉換為pandas.Categorical數據類型

1.以字符串作為分類特徵

下圖顯示了每種數據格式的平均I/O時間。這裡有趣的發現是hdf的加載速度比csv更低，而其他二進制格式的性能明顯更好，而feather和parquet則表現的非常好

保存數據並從磁盤讀取數據時的內存消耗如何？下一張圖片向我們展示了hdf的性能再次不那麼好。但可以肯定的是，csv不需要太多額外的內存來保存/加載純文本字符串，而feather和parquet則非常接近

最後，讓我們看一下文件大小的對比。這次parquet顯示出非常好的結果，考慮到這種格式是為有效存儲大量數據而開發的，也是理所當然

2.對特徵進行轉換

在上一節中，我們沒有嘗試有效地存儲分類特徵，而是使用純字符串，接下來我們使用專用的pandas.Categorical類型再次進行比較。

從上圖可以看到，與純文本csv相比，所有二進制格式都可以顯示其真強大功能，效率遠超過csv，因此我們將其刪除以更清楚地看到各種二進制格式之間的差異。

可以看到feather和pickle擁有最快的I/O速度，接下來該比較數據加載過程中的內存消耗了。下面的條形圖顯示了我們之前提到的有關parquet格式的情況

為什麼parquet內存消耗這麼高？因為只要在磁盤上佔用一點空間，就需要額外的資源才能將數據解壓縮回數據幀。即使文件在持久性存儲磁盤上需要適度的容量，也可能無法將其加載到內存中。

最後我們看下不同格式的文件大小比較。所有格式都顯示出良好的效果，除了hdf仍然需要比其他格式更多的空間。

結論

正如我們的上面的測試結果所示，feather格式似乎是在多個Jupyter之間存儲數據的理想選擇。它顯示出很高的I/O速度，不佔用磁盤上過多的內存，並且在裝回RAM時不需要任何拆包。

當然這種比較並不意味著我們應該在每種情況下都使用這種格式。例如，不希望將feather格式用作長期文件存儲。此外，當其他格式發揮最佳效果時，它並未考慮所有可能的情況。所以我們也需要根據具體情況進行選擇！

視頻教程：

數據分析教程全套
https://pan.baidu.com/s/1XPoWFnc3u8ku2naM6OlErA 提取碼: tye

項目練手實操：

Python項目精講美國總統競選贊助數據分析

https://pan.baidu.com/s/1D6Krp_7eUtxl6F5UBLC48g 提取碼: vp

教程和項目整理的很詳細，學習數據分析的夥伴，可以趕緊學起來了，

留言回覆：數據分析，獲取哦！

數據分析，從Excel到Power BI

一凡看彩 12月5日（週四）體彩排列五19325期

關於經濟學，看這一篇就足夠了！

線上線下融合，自然醇品如何用數據賣零食？

精益化運營需要數據化分析思維加持

《魔鬼經濟學》揭示隱藏在表象之下的真實世界9

擁有這些數據分析的戰略思維，你也可以掌握營銷動向！

關於“數據”崗位，我有話說

基於統計分析的異地供應商質量管理

從小白到大神，數據科學家的進階之路（下）

“招商創業忠告”，“開業”成本！

數據分析常用網站，分享帖~

電梯應急救援

「數據分析」基於POI數據的上海市購物服務設施簡要分析

1.以字符串作為分類特徵

2.對特徵進行轉換

相關文章:

數據分析，從Excel到Power BI

一凡看彩 12月5日（週四）體彩排列五19325期

關於經濟學，看這一篇就足夠了！

線上線下融合，自然醇品如何用數據賣零食？

精益化運營需要數據化分析思維加持

《魔鬼經濟學》揭示隱藏在表象之下的真實世界9

擁有這些數據分析的戰略思維，你也可以掌握營銷動向！

關於“數據”崗位，我有話說

基於統計分析的異地供應商質量管理

從小白到大神，數據科學家的進階之路（下）

“招商創業忠告”，“開業”成本！

數據分析常用網站，分享帖~

電梯應急救援

「數據分析」基於POI數據的上海市購物服務設施簡要分析

淺談數據分析對企業的影響

數據分析，蝦農們注意了！2020年或將是未來幾年行情最好的一年

2019教育綜合體大數據分析報告（全）

全球互聯網監控篇之---BGP數據分析篇

校長們，網絡營銷你們準備好了嗎？

數據分析：圍棋世界大賽的含金量哪個最足？非羅洗河奪三星杯莫屬

電商小程序如何利用社群裂變？打造高價值用戶群體

皇家社會vs埃瓦爾 埃瓦爾交鋒不怵

數據分析——numpy詳解2

數據分析：本賽季風頭正勁的快船，是一支什麼樣的球隊？

未來十年值得持有的三隻增長股

在南安讀Ba是一種怎樣的體驗？（內附彩蛋！）

微數聚：“智能表單”+數據分析

Python編程入門+數據分析課程正式上線

數據分析：科比在小球時代會是什麼水平？能否同樣創造輝煌

數據分析的7個步驟

如何從概念上分清數據挖掘與數據分析

數據分析：巴薩三大主力，梅西，特爾施特根，德容為何是非賣品

數據分析：限購後的上海樓市是漲是跌？2019身為剛需，該買房嗎？

數據分析：2020年茅臺酒大概率會漲到3000元。

「每日一答」1秒 成為大數據分析專家

什麼是數據挖掘，有哪些應用？終於有人講明白了

產品經理能力模型2

數據分析從零開始

我懷疑你的APP有Bug，現在我有證據了

數據分析：五一出遊杭州復甦力最強，不是去登山就是去看水

值得收藏！數據分析最常用的18個概念，終於有人講明白了

AI+數據分析：Stratifyd 挖掘數據價值，重塑保險客戶體驗

智能可穿戴復甦，是市場回暖還是自導自演？

金融分析 or 數據分析，誰才是未來就業的最佳選擇？

互聯網數據分析必備技能，教你30天變身月薪3萬的數據分析師

老男孩全棧爬蟲+數據分析：第14講，協程基本使用

老男孩全棧爬蟲+數據分析：第1講，相互認識

到底怎麼才能做好一個Python分析師？

卡耐基梅隆大學信息系統管理-商業智能和數據分析介紹！

數據分析：谷歌年度熱搜詞公佈 “What is Bitcoin?”

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

皇家社會vs埃瓦爾埃瓦爾交鋒不怵

「每日一答」1秒成為大數據分析專家

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患