什麼功能讓python-pandas與excel徹底拉開了距離

2019-09-08 17:17:50 嘩啦圈的夢

首先需要澄清的一點就是，excel非常強大，可視化的數據處理，強大的函數，內置power query,但是這些優點仍然沒有把小編留下，因為，最核心的一個功能，excel始終沒有跟上：

那就是數據分析

為什麼這麼說呢，excel在基礎的數據收集整理處理方面有著得天獨厚的優勢，但是我們收集數據要幹什麼，不就是要分析數據嗎，但是excel能夠提供的功能卻有些欠缺，比如：

經常用的數據透視表，能夠用的計算方式只有，求和，平均，最大，最小等，實際分析中，這些計算方式有些過於基礎，分組方式也過於單一

而pandas中的數據分組透視功能卻非常強大，可以任意分組，自定義分組，分組後的數據可以應用更自由的應用函數，自定義函數更是把分組功能應用到極致，一些看似很複雜的分析需求，變得異常簡單

今天小編帶大家一起看一下pandas的分組統計功能：groupby:

第一部分：分組：

分組鍵可以有多種形式，且類型不必相同：

·列表或數組，其長度與待分組的軸一樣。

·表示DataFrame某個列名的值。

·字典或Series，給出待分組軸上的值與分組名之間的對應關係。

·函數，用於處理軸索引或索引中的各個標籤。

注意，後三種都只是快捷方式而已，其最終目的仍然是產生一組用於拆分對象的值。

根據現有的列去分組

這也是最簡單的，可以根據一個鍵，也可以傳入列表支持多個鍵：

創建數據：

df = pd.DataFrame({'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'],
 'B': [2, 8, 1, 4, 3, 2, 5, 9],
 'C': [102, 98, 107, 104, 115, 87, 92, 123]})
df

根據一個鍵：

df.groupby("A").sum()

根據兩個鍵：

df.groupby(["A","B"]).sum()

根據字典映射去分組：

mapping={"A":1,"B":1,"C":2}
df.groupby(mapping,axis=1).sum()

mapping={0:1,1:1,2:2,3:2,4:1,5:1,6:1,7:1}
df.groupby(mapping).sum()

應為A列是文本，pandas自動剔除了

根據列表（字典的簡便寫法）：

但是有一個前提：必須是提供行或者列相等長度的列表：

mapping=[1,1,4] 

df.groupby(mapping,axis=1).sum()

字典可以不相等嗎？，可以，但是沒有映射的數據將不在統計範圍內：

mapping={0:1,1:1,2:2}
df.groupby(mapping).sum()

mapping={"A":1,"B":1}
df.groupby(mapping,axis=1).sum()

擴展：因為字典的映射關係，我們也可以用映射去篩選需要統計的數據去透視

根據自定義區間分組：

這裡用到了cut函數，後面我會詳細介紹這個函數

dd_2=pd.cut(df['B'], bins=2)
df.groupby(dd_2).sum()

如果我們有一些數據，這些數據是包含年齡的，就可以根據這個方法來區分不同年齡段，也可以區分不同的時間段，反正用著的時候挺好用的

根據函數去分組：

根據函數分組的原理就是根據返回值來分組，相同的返回值將會被分為一組：

默認傳給函數的是索引：

def f(x):
 print(x)
 return x
df.groupby(f).sum()

def f(x):
 print(x)
 return x>5
df.groupby(f).sum()

如果想用別的列應用函數：

def f(x):
 print(x)
 return pd.cut(x,bins=3)
df.groupby(f(df["C"])).sum()

第二部分：統計計算

pandas在分組後的統計計算中，有一些常用的經過優化的一些方法：

今天要講的是如何應用這些方法

第一個介紹的是agg(Aggregate):

Aggregate using one or more operations over the specified axis

使用指定軸上的一個或多個操作進行聚合

意思是說，在指定的軸上使用一個或多個聚合函數

df.groupby("A").agg({"B":np.sum,"C":np.mean})

df.groupby("A").agg({"B":[np.sum,np.mean],"C":np.mean})

df.groupby('A')['B'].agg({'mean':np.mean, 'standard deviation': np.std})

第二個介紹：apply最重要的一個函數

df.groupby('A').apply(lambda x: x['C']-x['B'])
df.groupby('A').apply(lambda x: (x['C']-x['B']).mean())

想要用好apply還要明白他的原理：

首先來看看是如何分組的，這次利用groupby的迭代器讀取分組的數據：

for a,b in df.groupby('A'):
 print(a)
 print(b)

自定義函數應用時傳入的就是每一個分組數據，你可以利用DataFrame的特性來篩選相應的列然後用來計算，具體能達到什麼效果完全看你的想法了

注意：當你在根據鍵分組後具體返回什麼也是靠你的自定義函數.

比如，我們分組後只返回B列的數據：

def f(x):
 return x["B"]
df.groupby("A").apply(f)

返回B的平方：

def f(x):
 return x["B"]**2
df.groupby("A").apply(f)

apply能達到的不僅僅這一點：

下面我們計算一下每個分組的B列最大值和最小值的差：

def f(x):
 return max(x["B"])-min(x["B"])
df.groupby("A").apply(f)

下面我們統計每個分組的最後一行數據，這個要求在很多工具裡面是很難實現的

def f(x):
 return x[-1:]
df.groupby("A").apply(f)

想要用好apply的核心就在於：分組後傳入apply自定義函數的就是每個分組的DataFrame,返回值就是按照你的自定義函數來的。

還可以用這些常用的方法：

pandas.DataFrame.groupby

DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)[source]

by : mapping, function, label, or list of labels

用於確定groupby的組。如果by是一個函數，則調用對象索引的每個值。如果傳遞了dict或Series，則將使用Series或dict VALUES來確定組（系列的值首先對齊;請參閱.align（）方法）。如果傳遞了ndarray，則使用這些值來確定組。標籤或標籤列表可以通過self中的列傳遞給組。請注意，元組被解釋為（單個）鍵。

axis : {0 or ‘index’, 1 or ‘columns’}, default 0

按照行或列分割

level : int, level name, or sequence of such, default None

如果軸是MultiIndex（分層），則按特定級別或級別分組。

as_index : bool, default True

對於聚合輸出，返回以組標籤作為索引的對象。僅與DataFrame輸入相關。 as_index = False實際上是“SQL風格”的分組輸出。

sort

: bool, default True

對組鍵進行排序。關閉它可以獲得更好的性能。請注意，這不會影響每組內觀察的順序。 Groupby保留每個組中的行順序。

group_keys : bool, default True

調用apply時，將組鍵添加到索引以標識片段。

squeeze : bool, default False

如果可能，減少返回類型的維度，否則返回一致類型。

observed : bool, default False

**kwargs

Optional, only accepts keyword argument ‘mutated’ and is passed to groupby.

分享到:

閱讀更多 嘩啦圈的夢 的文章

關鍵字: Excel 可視化技術強大

Excel 表格技巧—如何快速刪除 Excel 中的空行

Excel 有哪些可能需要熟練掌握而很多人不會的技能？

Excel – 將一列連續數據填充至大小不等的合併單元格區域

Excel – 合併單元格求和

Excel 中求和運算

Excel 操作

Excel 中如何只顯示所需的特定內容

Excel 如何設置日期提醒？

EXCEL 工作表和工作薄的區別

Excel-數據透視表（基礎篇）切片器新手易學

Excel 中你會用Ctrl嗎？

Excel 最新財務報表分析模板

03.03 Excel

Excel 數據清洗（一）

Excel 入門必須瞭解的快捷鍵

「excel」分類彙總的另類用法

「Excel」非連續區域的複製

12.12 Excel---動態折線圖，領導一眼就能看出數據的問題

Excel---多層柱形圖來了！讓領導看呆

11.28 EXCEL--原來我們可以給表格安裝監控器！太牛了

Excel│剩餘天數管理

Excel│剪貼板技巧，看過都說好

Excel│年終抽獎，小白也可以做

Excel│數據條，讓你的報表數據更出彩

Excel│VBA實用小代碼提取文件夾內文件名

Excel 中對有文字的單元格進行計算，只要兩個快捷鍵

Excel – 計算包含文字的單元格，只需要按兩次快捷鍵

10.20 Excel---合併兩個表格很簡單！別再去複製剪切刪除了

Excel--這圖表簡直太簡潔直觀了，適合絕大多數office人士

#Excel#函數入門教程—關於Count函數相關係列知識點大總結

Excel 完成一個柱形圖與折線圖組合圖表

打印 Excel 表格部分小技巧

EXCEL 表格打印必會知識點

Excel – 填充色隨輸入內容自動變化

Excel 的10個神奇功能，你會用幾個？

【Excel快速入門08】Excel 中的公式概述

Excel VLOOKUP函數小技巧

Excel 快速製作工資條

excel 空白處快速求和教程

08.29 「EXCEL」五個序號技巧，你懂幾個？

Excel 你應該要會這些

Excel 不會這些就out了

06.28 Excel 技能囤貨瞭解一下

06.26 「Excel」製作一個隱藏行

06.24 excel 柱形圖的上下對比柱形圖你會嗎

04.24 「Excel」只需2分鐘，讓你學會通配符的用法

04.17 [Excel]製作一份帶超鏈接的工作表目錄，或許真的只需要1分鐘

Excel 單元格內容合併各拆分，固定單元格行或列

陝西西安曲江新區管委會招聘公告

西安曲江新區，是陝西省、西安市確立的以文化產業和旅遊產業為主導的城市發展新區，在“文化立區、旅遊興區”的發展理念下，不斷在“標誌性、國際範、科技風、地方味”上下功夫，形成了“文化+旅遊+產業”的發展模式和文旅高品質融合的發展道路。

內蒙古自治區體育局面向退役運動員招聘教練員16人簡章

內蒙古自治區體育局面向退役運動員招聘教練員簡章。經自治區人社廳批准，內蒙古自治區體育局直屬事業單位與應聘人員簽訂聘用合同。

2020年甘肅白銀市白銀區鄉鎮衛生院招聘10人公告

白銀市白銀區2020年鄉鎮衛生院公開招聘緊缺專業人才公告　　白銀區各鄉鎮衛生院因工作需要面向社會公開招聘工作人員。現將有關事項公告如下：　　一、招聘計劃　　本次招聘醫療衛生類專業技術人員10名，具體招聘崗位及條件見附表1。

甘肅慶陽招聘政府專職消防員18名公告

根據慶陽市人民政府《關於印發慶陽市招聘合同制政府專職消防員實施意見》文件要求，決定在全縣範圍內公開招聘合同制政府專職消防員18名。

甘肅省武威市教師招聘97人公告

根據武威市教育事業發展需要，按照事業單位公開招聘有關規定，決定採取面試考核方式面向全國引進教育類人才，現將有關事項公告如下:

數據深扒：這輩子在哪些行業打工有可能年薪百萬？

近兩年很流行的FIRE運動，就倡導

這款全能圖片處理工具箱，內置將近100個圖片處理工具，非常實用

在介紹軟件之前，我想問各位一個小問題：各位平時用什麼圖片處理軟件來修圖呢？PS、美圖秀秀？還是ACDSee之類的圖片處理軟件？今天要為大家介紹的這款軟件名為電腦圖像工具箱，它是一款功能非常豐富且強大的處理處理軟件。

人社部最新發布！2020年就業新方向，這16個新職業要火

近日，中國就業培訓技術指導中心發佈《關於擬發佈新職業信息公示的通告》，經人社部同意，現場擬發佈包括人工智能訓練師、網約配送員、健康照護師等16個新職業，並明確賦予了這些職業具體的定義和主要工作任務。

文字辦公—如何在Word中內置一頁PPT

PPT與Word在操作上還是有挺大區別，在PPT中能夠繪製框圖並且多批量處理要素，一鍵框選內容，很多小夥伴習慣於使用PPT轉而使用Word就不太習慣，其實只要一個小操作就能讓Word也實現上述功能。

文字辦公—如何修改Word 的文本樣式

接下來小編跟大家講解如何修改Word

文字辦公—如何讓Word只粘貼網頁中的文字而自動去除圖形和版式

我們在網頁中看到不錯的內容或者查找資料時瀏覽到對報告有意義的內容時，會複製網頁內容至word文檔內，但如果不想整篇網頁內容都複製到文檔內，只需要文字內容時應當怎麼操作呢，今天小編就為大家演示一遍具體的步驟。

PPT演示技巧—PPT怎麼錄屏

在需要錄屏時我們第一時間想到的可能是下載軟件去錄製，但很多人不知道的是其實在PPT中就有錄屏這個功能，也省去了我們使用錄屏軟件的麻煩，接下來小編就帶大家操作一遍吧。

招聘通知（全國）丨貴州省農村信用社招聘347人公告

公示項目:2020年貴州省農村信用社招聘347人公告。輻射範圍:貴州省。

5月7日·張家口要聞快報：有編制！張家口一地招聘公告！這些地方有了移動5G網絡

為進一步提高涿鹿縣高中階段學校教師隊伍層次規格，以適應新高考改革，培養更多的優秀畢業生，確保涿鹿教育事業可持續發展。張家口:這些地方已經覆蓋移動5G網絡。

工作中出現錯誤後，不應該著眼於這2點

工作中一旦出現錯誤，考慮如何補救才是真正重要的，不應該著眼在以下2點：一

妙招！Word和Execl“聯姻”實現數據高效處理！

你是不是想到的是在Excel中將數據處理好後再粘貼到word中，這種方法在某些時候是不可取的，比如表格中時間可能隨時需要更新，我們不可能，更新一次就去複製粘貼一次，這樣會影響我們的工作效率。

重要提醒：本週六要上班！2020年還有這些假

剛過完假期的你是不是意猶未盡？今天上班第一天小編有以下幾點友情提醒小夥伴們要仔細看01

沿海大型高新科技企業南充設廠，大量招人，月薪最高15000元，免費宿舍…

點擊觀看視頻，一起走進

5月7日廣東最新事業單位招聘公告

05-06[中山]2020年中山市農業農村局招聘事業單位高層次人才公告05-06[中山]2020年中山市黃圃鎮招聘編外人員公告05-06[湛江市]2020年湛江市坡頭區財政局招聘編外人員公告05-06[深圳]2020年5月深圳市寶安區發展研究中心選聘常設崗位人員公告05-06[江

5月7日湖北最新事業單位招聘公告

05-07[湖北]2020年黃石市住房和城鄉建設局招聘專業人才公告05-07[湖北]2020年十堰市竹溪縣招聘高中階段學校教師公告05-07[湖北]2020年咸寧市政府投資項目建設管理局招聘工程專業技術人員公告05-07[湖北]2020年黃石大冶市政府總值班室選聘事業單位人員公告

5月7日河北最新事業單位招聘公告

05-07[河北]2020年石家莊辛集市事業單位選聘公告04-30[河北]2020年邯鄲市國資委選聘碩士研究生公告04-30[河北]2020年河北峰峰礦區高層次人才引進公告04-29[河北]2020年邯鄲市住房公積金管理中心引進博碩人才公告04-29[河北]2020年邯鄲市水利局

5月7日山東最新事業單位招聘公告

05-072020年棗莊臺兒莊區招聘鎮街事業編制人員到村擔任黨組織書記公告05-062020年東營廣饒縣“英才進廣饒”招聘簡章05-062020年淄博周村區行政審批服務局招聘工作人員公告05-062020年煙臺萊州市考核評價中心招聘萊州市“鄉呼縣應”話務員公告05-062020年

未籤書面勞動合同用人單位必須支付二倍工資？

可是，現實中有一些用人單位明明沒有與勞動者簽訂書面勞動合同，也未向勞動者支付二倍工資，卻贏了官司，這是為什麼?

【西青宣傳】校招衝刺季！高校畢業生雲招聘首場直播 1000+個崗位在線等你

天津衛視《天津新聞》:西青區認真貫徹落實文明條例

風水學！洞悉常人無法察覺的不確定性

生活在如今這個時代，肯定會有不少人感慨，不管你是江湖老鳥，還是職場小白，猜不透的“海底針老闆心”幾乎每家公司都是同款的。

工作幹好恰恰是你不能升職的原因

S是私企公司的技術骨幹，在公司7年裡，他每天兢兢業業，加班加點也都是司空見慣，總算熬成了部門裡資格最老的一個員工。

會計做賬中最常見的5項支出不需要發票就可以稅前扣除

估計還有很多會計不知道，會計做賬中最常見的5項支出不需要發票就可以稅前扣除！關於這方面的內容今天一次給大家總結清楚了，以後不要弄錯了。支出一工資薪金支出提醒：企業平時支付職工的工資不需要發票。

「轉發擴散」長春市招聘296名公益性崗位人員

為貫徹落實長春市“保基本就業、保基本民生”工作要求，現面向社會公開招聘296名公益性崗位人員，以加強街道、社區基層公共服務平臺力量，提升就業服務和民生服務能力。

招聘巨頭裁員，但更可怕的是招聘行業的亂象

近期有消息稱，這家招聘巨頭已經陷入了裁員風波，先後關閉了石家莊、烏魯木齊、蘭州、廈門等11座城市辦事處，裁員上百人。

代理記賬流程揭祕，學會了你也可以去記賬

代理記賬可以節約成本，提高效率。是很多小微企業財務工作的選擇。因為巨大的市場需求，所以很多財務人員選擇了代理記賬工作。代理記賬工作流程簡單，易於上手，而且如果客戶資源豐富的話，收益也是頗豐。小編曾經有過一段代理記賬公司工作的經歷，下面就來為大家揭秘下代理記賬的流程。

電腦快捷鍵彙總

Excel表格中Ctrl+字母快捷鍵彙總1、Ctrl

如何去掉word文檔行尾的換行符

在我們日常的文檔編輯當中，有時候會遇到只要一換行下面就會出現一個小箭頭，看著特別不美觀，下面我來分享一下如去掉這個換行標識，和大家共同學習一下。　　1、首先單左上角“開始”　　2、在打開的對話框裡。

甘肅省民政廳直屬事業單位公開招聘工作人員11人

怎麼在Word文檔中插入頁碼

在我們日常的文檔編輯中，由其是在需要打印當中，都希望在文檔中看是頁碼。下面來分享二個在文檔當中加入頁碼的小未能，來和大家共同學習一下。

今天，蔡甸區人社局組織 400＋崗位送到百姓家門口

5月6日上午，蔡甸區“戰疫情

單位裡高手的說話方式（看懂閱歷漲10年）

高手說話，可能簡單幾句，就能讓對話者茅塞頓開。在單位裡，高手說話，沒有華麗的詞語，卻能讓與之溝通的人如沐春風。那麼，高手說話的功夫是如何煉成的呢？說話溝通，首先要擺正心態，有正確的心態為基礎，說話的方向就不會跑偏。

什麼時候是跳槽的最佳時機？怎樣跳更有利於你身家升值？

“領導太難伺候了，我怎麼努力他就是不滿意”，“這裡的人際關係太複雜了，老子不幹了”，“這裡的工資太低了，事情又多，我還是換一家高工資的公司吧”，如果你是因為這些原因跳槽，那你就大錯特錯了。一.

用控件查詢生日信息

問題情境掌握職工的生日信息，及時送出生日祝福，是每位HR必備的技能。

【法律知識】員工離職的22個法律要點

1、經濟補償是國家要求用人單位承擔的一種社會責任，即用人單位解除或者終止勞動合同時，應當支付給勞動者一定的經濟補助，以幫助勞動者在失業階段維持基本生活，不至於生活水平急劇下降。正是由於這種社會責任是國家強加給用人單位的義務，因而，何種情況下用人單位應當擔責，需要由法律的明確規定。

終於，我還是去領了失業金

“我爸已經去領失業金了，我覺得我也快了。微博上，90後女孩默默已經辦妥了失業金領取手續，但對結果並不滿意，因為她累計繳了15個月社保，卻只能領到1個月失業金，1960元。

試用期沒提成！成交130萬訂單一分不給，半個月後老闆蒙了

現如今的大多數公司都有試用期的規定，公司通過這種方式來考察員工是否是公司想要的人才，但是我們都知道，試用期內的工資都比較低，有的公司甚至規定在試用期內只有底薪，沒有提成。這讓很多員工感到不公平，同樣是為企業帶來業績為什麼自己得不到提成？

同樣工作30年，為什麼有人養老金能領6000元，有的人只能領1500？

經常會有朋友這樣問鏡仔，為什麼同樣工作了30年，有的人退休後每個月養老金能領到6000元，自己卻只能領取1500元？影響退休後養老金數額多少的原因有很多種，那麼今天鏡仔就來詳細說一下，到底為什麼造成了養老金這樣的差異性。

招聘啦！長春市公益性崗位人員招人啦

為貫徹落實我市“保基本就業、保基本民生”工作要求，現面向社會公開招聘296名公益性崗位人員，以加強街道（鄉、鎮）、社區基層公共服務平臺力量，提升就業服務和民生服務能力。

回老家被問工資，我說2000，非要給我找月薪3000的，我說日入兩千

我弟弟辭去公職去外地發展，開了一家公司，一年百把萬收入總是有的，但是每次回家都是開個榮威350，而且是乞丐版，同村里人對他都是一臉同情，說辭職辭虧了，只有我知道，他這樣做一方面怕別人生嫉妒，另一方面也是怕招惹是非。

為“偷懶”做的Excel進項增值稅管理系統，升級版更好用！財務收

進項增值稅管理升級版——系統自帶公式，基礎數據錄入之後，會自動生成數據報表，數據也能備份，避免我們誤刪之後找不到。

勞動者履職過程中給用人單位造成損失承擔賠償責任的裁判規則

勞動者在履行職務過程中可能因為各種原因直接或者間接造成用人單位損失，在何種情形下，勞動者需要賠償用人單位的損失，又如何賠償?

懂得規劃自己的人，少吃10年苦！

在生活中，很多職場人混跡職場，處理職業問題貌似都是盲人摸象，毫無章法的，從而處於很被動的位置。這是因為我們大多數人出了大學校門，就一路裸奔邁進了職場，沒有人教我們怎麼規劃自己的發展，沒有人教我們怎麼去應對職場人際，更沒有人傳授我們工作技巧，所以我們對未來基本沒有什麼規劃，導致我們

作者可自主選擇免費或付費閱文：一個月內推新版合同

東方網記者包永婷5月6日報道:今天下午，在閱文集團新管理團隊與多位作家參加的首場作家懇談會上，閱文新任CEO程武表示，著作人身權屬於作家獨有，閱文絕不會通過任何方式分享或獲取著作權，將在1個月內推出新版合同。

學會這個方法，表格想怎麼合併都不愁！

把表裝入Power

哪些行業薪資最高？脫貧就要入對行！

上市公司對很多人都感覺高大上，在上市公司工作是不是年薪很高呢?如果想要更快更好的脫貧，那就應該選擇金融、地產、科技行業，儘可能擺脫傳統行業，當然要進入這些高科技行業，打鐵要自身硬，力爭在大學就要進入這些專業的985院校就妥妥了。