5個Pandas的高級功能

2019-12-30 02:34:13 聞數起舞

Pandas是數據分析的黃金標準庫。擁有加載，過濾，操作和瀏覽數據的功能，因此毫無疑問它是數據科學家的最愛。

我們大多數人自然會堅持Pandas的基本知識。從CSV文件加載數據，過濾幾列，然後直接跳入數據可視化。然而，Pandas實際上具有許多鮮為人知但有用的功能，這些功能可以使處理數據變得更加輕鬆和整潔。

本教程將指導您完成其中5個更高級的功能-它們的作用和使用方法。數據帶來更多樂趣！

（1）配置選項和設置

Pandas帶有一組用戶可配置的選項和設置。它們可以極大地提高生產力，因為它們使您可以根據自己的喜好定製Pandas環境。

例如，我們可以更改某些Pandas的顯示設置，以更改顯示的行數和列數以及顯示的精度浮點數。

<code>import pandas as pd

display_settings = {
    'max_columns': 10,
    'expand_frame_repr': True,  # Wrap to multiple pages
    'max_rows': 10,
    'precision': 2, 

    'show_dimensions': True
}

for op, value in display_settings.items():
    pd.set_option("display.{}".format(op), value)/<code>

上面的代碼確保Pandas始終最多顯示10行和10列，浮點值最多顯示2個小數位。這樣，當我們嘗試打印大的DataFrame時，我們的終端機或Jupyter Notebook不會看起來一團糟！

那只是一個基本的例子。除了簡單的顯示設置之外，還有很多其他可以探索的內容。您可以查看官方文檔中的所有選項。

（2）合併數據框

Pandas DataFrames的一個相對未知的部分，是實際上有2種不同的方式來組合它們。每種方法都會產生不同的結果，因此，根據您要實現的目標選擇合適的方法非常重要。此外，它們包含許多可進一步自定義合併的參數。讓我們檢查一下。

級聯

串聯是組合DataFrame的最著名方法，可以直觀地認為是“堆棧”。該堆疊可以水平或垂直進行。

假設您有一個龐大的CSV格式的數據集。將其拆分為多個文件以便於處理是很有意義的（這是大型數據集的常見做法，稱為分片）。

將其加載到Pandas中時，您可以垂直堆疊每個CSV的DataFrame來為所有數據創建一個大的DataFrame。例如，如果我們有3個分片，每個分片有500萬行，那麼在垂直堆疊所有分片之後，最終的DataFrame將有1500萬行。

下面的代碼顯示瞭如何在Pandas中垂直連接DataFrame。

<code># Vertical concat
pd.concat([october_df, november_df, december_df], axis=0)/<code>

您可以通過按列而不是行拆分數據集來執行類似的操作-每個CSV文件有幾列（包含數據集的所有行）。就像我們將數據集的功能劃分為不同的碎片一樣。然後，您將水平堆疊它們以合併那些列/要素。

<code># Horizontal concat
pd.concat([features_1to5_df, features_6to10_df, features_11to15_df], axis=1)/<code>

合併

合併更復雜但功能更強大，以類似於SQL的樣式合併Pandas DataFrame。也就是說，DataFrames將通過一些公共屬性來合併。

想象一下，您有2個描述YouTube頻道的數據框。其中一個包含用戶ID列表以及每個用戶在您的頻道上總共花費了多少時間。另一個包含類似的用戶ID列表以及每個用戶觀看過多少個視頻。合併使我們可以通過匹配用戶ID，然後將ID，花費的時間和視頻計數放在每個用戶的一行中，將2個DataFrame組合為一個。

熊貓中的兩個數據框的合併是通過合併功能完成的。您可以在下面的代碼中看到有關其工作方式的示例。左右參數指的是您要合併的2個數據框，而on則指定要用於匹配的列。

<code>pd.merge(left=ids_and_time_df,
         right=ids_and_videos_df,
         on="id")/<code>

為了進一步模擬SQL聯接，how參數可讓您選擇要執行的SQL樣式聯接的類型：內部，外部，左側或右側。要了解有關SQL連接的更多信息，請參見W3Schools教程。

（3）重塑數據幀

有幾種方法可以重塑和重組Pandas DataFrame。這些範圍從簡單易用到功能強大和複雜。讓我們看看最常見的3種。對於以下所有示例，我們將使用此超級英雄數據集！

<code>import pandas as pd

players_data = {'Player': ['Superman', 'Batman', 'Thanos', 'Batman', 'Thanos',
   'Superman', 'Batman', 'Thanos', 'Black Widow', 'Batman', 'Thanos', 'Superman'],
   'Year': [2000,2000,2000,2001,2001,2002,2002,2002,2003,2004,2004,2005],
   'Points':[23,43,45,65,76,34,23,78,89,76,92,87]}
   
df = pd.DataFrame(players_data)

print(df)

"""
         Player  Year  Points
0      Superman  2000      23
1        Batman  2000      43
2        Thanos  2000      45
3        Batman  2001      65 

4        Thanos  2001      76
5      Superman  2002      34
6        Batman  2002      23
7        Thanos  2002      78
8   Black Widow  2003      89
9        Batman  2004      76
10       Thanos  2004      92
11     Superman  2005      87
"""/<code>

轉置

所有這些中最簡單的。轉置將DataFrame的行與其列交換。如果您有5000行和10列，然後轉置DataFrame，則最終將得到10行和5000列。

<code>df = df.T

print(df)

"""
              0       1       2       3       4         5       6       7            8       9       10        11
Player  Superman  Batman  Thanos  Batman  Thanos  Superman  Batman  Thanos  Black Widow  Batman  Thanos  Superman
Year        2000    2000    2000    2001    2001      2002    2002    2002         2003    2004    2004      2005
Points        23      43      45      65      76        34      23      78           89      76      92        87

"""/<code>

分組 Group BY

Groupby的主要用途是根據某些鍵將DataFrame分為多個部分。將DataFrame拆分為多個部分後，您可以循環瀏覽並在每個部分上獨立應用一些操作。

例如，我們可以看到在下面的代碼中如何創建具有相應年份和積分的玩家數據框。然後，我們根據播放器進行了分組，將DataFrame分為多個部分。因此，每個玩家都有自己的群組，顯示該玩家每年在活動中獲得的積分。

<code>groups_df = df.groupby('Player')

for player, group in groups_df:
   print("----- {} -----".format(player))
   print(group)
   print("")
   
### This prints out the following
"""
----- Batman -----
   Player  Year  Points
1  Batman  2000      43
3  Batman  2001      65
6  Batman  2002      23
9  Batman  2004      76

----- Black Widow -----
        Player  Year  Points
8  Black Widow  2003      89

----- Superman -----
      Player  Year  Points
0   Superman  2000      23
5   Superman  2002      34
11  Superman  2005      87

----- Thanos -----
    Player  Year  Points
2   Thanos  2000      45
4   Thanos  2001      76
7   Thanos  2002      78
10  Thanos  2004      92

"""/<code>

堆疊 Stack

堆疊將DataFrame轉換為具有多級索引，即每行具有多個子部分。這些子部分是使用DataFrame的列創建的，並將其壓縮為多索引。總體而言，可以將堆棧視為將列壓縮為多索引行。

最好通過一個示例來說明，如下所示。

<code>df = df.stack()

print(df)

"""
0   Player       Superman
    Year             2000
    Points             23
1   Player         Batman
    Year             2000
    Points             43
2   Player         Thanos
    Year             2000
    Points             45
3   Player         Batman
    Year             2001
    Points             65
4   Player         Thanos
    Year             2001
    Points             76
5   Player       Superman
    Year             2002
    Points             34
6   Player         Batman
    Year             2002
    Points             23
7   Player         Thanos
    Year             2002
    Points             78
8   Player    Black Widow
    Year             2003
    Points             89
9   Player         Batman
    Year             2004
    Points             76
10  Player         Thanos
    Year             2004
    Points             92
11  Player       Superman
    Year             2005
    Points             87

"""/<code>

（4）處理時間數據

Datetime庫是Python的主要組成部分。每當您處理與現實世界中的日期和時間信息相關的任何內容時，它都是您的轉庫。幸運的是，Pandas還具有使用Datetime對象的功能。

讓我們舉例說明。在下面的代碼中，我們首先創建一個包含4列的DataFrame：Day，Month，Year和data，然後按年和月對它進行排序。如您所見，這非常混亂。我們只用3列來存儲日期，而實際上我們知道日曆日期只是1個值。

<code>from itertools import product
import pandas as pd
import numpy as np

col_names = ["Day", "Month", "Year"]

df = pd.DataFrame(list(product([10, 11, 12], [8, 9], [2018, 2019])),
                   columns=col_names)

df['data'] = np.random.randn(len(df))

df = df.sort_values(['Year', 'Month'], ascending=[True, True])

print(df)


"""
    Day  Month  Year      data
0    10      8  2018  1.685356
4    11      8  2018  0.441383
8    12      8  2018  1.276089
2    10      9  2018 -0.260338
6    11      9  2018  0.404769
10   12      9  2018 -0.359598
1    10      8  2019  0.145498
5    11      8  2019 -0.731463
9    12      8  2019 -1.451633
3    10      9  2019 -0.988294
7    11      9  2019 -0.687049
11   12      9  2019 -0.067432
"""/<code>

我們可以用datetime清理事情。

Pandas方便地附帶了一個名為to_datetime（）的函數，該函數可以將多個DataFrame列壓縮並將其轉換為單個Datetime對象。採用這種格式後，就可以使用Datetime庫的所有靈活性。

要使用to_datetime（）函數，您需要將相關列中的所有“日期”數據傳遞給它。那就是“日”，“月”和“年”列。一旦有了Datetime格式的內容，我們就不再需要其他列，只需刪除它們即可。看看下面的代碼，看看它們如何工作！

<code>from itertools import product
import pandas as pd
import numpy as np

col_names = ["Day", "Month", "Year"]

df = pd.DataFrame(list(product([10, 11, 12], [8, 9], [2018, 2019])),
                   columns=col_names)

df['data'] = np.random.randn(len(df))

df = df.sort_values(['Year', 'Month'], ascending=[True, True])

df.insert(loc=0, column="date", value=pd.to_datetime(df[col_names]))
df = df.drop(col_names, axis=1).squeeze()

print(df)

"""
         date      data
0  2018-08-10 -0.328973
4  2018-08-11 -0.670790
8  2018-08-12 -1.360565
2  2018-09-10 -0.401973
6  2018-09-11 -1.238754
10 2018-09-12  0.957695
1  2019-08-10  0.571126
5  2019-08-11 -1.320735
9  2019-08-12  0.196036
3  2019-09-10 -1.717800
7  2019-09-11  0.074606
11 2019-09-12 -0.643198
"""/<code>

（5）將項目映射到組

映射是一個巧妙的技巧，有助於組織分類數據。例如，想象一下，我們有一個巨大的DataFrame，其中包含成千上萬的行，其中一列包含我們要分類的項目。這樣做可以大大簡化機器學習模型的訓練和有效地可視化數據。

請查看下面的代碼以獲取一個迷你示例，其中有我們要分類的食品列表。

<code>import pandas as pd

foods = pd.Series(["Bread", "Rice", "Steak", "Ham", "Chicken",
                       "Apples", "Potatoes", "Mangoes", "Fish",
                       "Bread", "Rice", "Steak", "Ham", "Chicken",
                       "Apples", "Potatoes", "Mangoes", "Fish",
                       "Apples", "Potatoes", "Mangoes", "Fish",
                       "Apples", "Potatoes", "Mangoes", "Fish",
                       "Bread", "Rice", "Steak", "Ham", "Chicken",
                       "Bread", "Rice", "Steak", "Ham", "Chicken",
                       "Bread", "Rice", "Steak", "Ham", "Chicken",
                       "Apples", "Potatoes", "Mangoes", "Fish",
                       "Apples", "Potatoes", "Mangoes", "Fish",
                       "Apples", "Potatoes", "Mangoes", "Fish",
                       "Bread", "Rice", "Steak", "Ham", "Chicken",
                       "Bread", "Rice", "Steak", "Ham", "Chicken",])

groups_dict = {
    "Protein": ["Steak", "Ham", "Chicken", "Fish"],
    "Carbs": ["Bread", "Rice", "Apples", "Potatoes", "Mangoes"]
}/<code>

在上面的代碼中，我們將列表放入了pandas系列。我們還創建了一個字典，其中顯示了我們想要的映射，將每個食品分類為“蛋白質”或“碳水化合物”。這是一個玩具的例子，但是如果這個系列是大規模的，比如說長度為1,000,000件，那麼遍歷它根本是不實際的。

除了基本的for循環，我們還可以使用Pandas內置的.map（）函數編寫函數，以優化的方式執行映射。請查看下面的代碼，以查看該功能及其應用方式。

<code>def membership_map(pandas_series, groups_dict): 

    groups = {x: k for k, v in groups_dict.items() for x in v}
    mapped_series = pandas_series.map(groups)
    return mapped_series
    
mapped_data = membership_map(foods, groups_dict)
print(list(mapped_data))/<code>

在函數中，我們首先遍歷字典以創建一個新的字典，其中的鍵代表Pandas系列中每個可能的項目，其值代表新的映射項目“蛋白質”或“碳水化合物”。然後，我們只需應用Pandas的內置map函數來映射系列中的所有值

查看下面的輸出以查看結果！

<code>['Carbs', 'Carbs', 'Protein', 'Protein', 'Protein', 'Carbs', 'Carbs', 'Carbs', 'Protein', 'Carbs', 'Carbs', 'Protein', 'Protein', 'Protein', 'Carbs', 'Carbs', 'Carbs', 'Protein', 'Carbs', 'Carbs', 'Carbs', 'Protein', 'Carbs', 'Carbs', 'Carbs', 'Protein', 'Carbs', 'Carbs', 'Protein', 'Protein', 'Protein', 'Carbs', 'Carbs', 'Protein', 'Protein', 'Protein', 'Carbs', 'Carbs', 'Protein', 'Protein', 'Protein', 'Carbs', 'Carbs', 'Carbs', 'Protein', 'Carbs', 'Carbs', 'Carbs', 'Protein', 'Carbs', 'Carbs', 'Carbs', 'Protein', 'Carbs', 'Carbs', 'Protein', 'Protein', 'Protein', 'Carbs', 'Carbs', 'Protein', 'Protein', 'Protein']
/<code>

(本文翻譯自George Seif的文章《5 Advanced Features of Pandas and How to Use Them》，參考：https://towardsdatascience.com/5-advanced-features-of-pandas-and-how-to-use-them-1f2e2585d83e)

分享到:

閱讀更多 聞數起舞 的文章

關鍵字: 黃金數據分析高級

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"