效率驚人！三大相見恨晚的Pandas函數頭條網

效率驚人！三大相見恨晚的Pandas函數

2020-12-24 23:29:39 佚名

全文共1440字，預計學習時長6分鐘

圖源：unsplash

數據科學領域如此之廣，鮮少有人能精通所有語言、數據庫，筆者儘管已經從事了該行業數年之久，但仍然所知不多。學無止境，變得優秀的方法就是不停下學習的腳步。

在Pandas中，一些函數意義純粹，但也有一些函數指的是使用Pandas的方式，以及為什麼一種方法比另一種更好。這兒有一些節省大量的時間和精力Pandas函數和使用方法，這些效率驚人的神器千萬不要錯過。

itertuples（）

確實，它並不是純粹的函數，而是指使用Pandas的更有效方法，是循環訪問數據集的快捷方法。在花時間理解註釋部分之前，可以用更有效的方法計算總列值，在此筆者僅提出一些要點。

下面是一列簡單數據集，數字範圍為1到1百萬。

<code>df =pd.DataFrame(data={
   'Number': range(1, 1000000)
})/<code>

這是前幾行的示例：

現在列舉一個錯誤的方式。輸入一個總計變量並將其設置為0. 然後，通過使用iterrows（）循環訪問數據集，並在total的基礎上增加當前行的值，與此同時統計操作時間。以下是代碼：

<code>%%timetotal= 0for _, row in df.iterrows():
    total += row['Number']
 
total>>> Wall time: 18.7 s/<code>

這項小小的操作歷時將近19秒，而現在有一個更快捷的方法，與上述操作大致相同，但要加iteruples 而不是 iterrows：

<code>%%timetotal= 0for row in df.itertuples(index=False):
    total += row.Number
 
total>>> Wall time: 82.1 ms/<code>

筆者沒有計算時間，但可以看到操作速度提高非常明顯。下次執行循環時請記住這一點。

nlargest（）和nsmallest（）

筆者計算了兩個緯度/經度對之間的距離（以公里為單位）。那是第一步操作，第二步是選擇距離最小的前N條記錄。

圖源：unsplash

輸入-nsmallest（）。nlargest（）將返回N個最大值，而nsmallest（）將恰好相反。

看看它的實際結果。在實際操作中，筆者準備了一個小的數據集：

<code>df =pd.DataFrame(data={
    'Name': ['Bob', 'Mark', 'Josh','Anna', 'Peter', 'Dexter'],
    'Points': [37, 91, 66, 42, 99, 81]
})/<code>

結果如下：

現在該數據集不是僅僅6行，而是包含了6000行，為了找到表現最好的學生，即分數最高，一種方法是這樣的：

<code>df['Points'].nlargest(3)/<code>

但這不是最佳解決方案，它會導致以下結果，沒有清楚顯示真實姓名：

改善方法如下：

<code>df.nlargest(3,columns='Points')/<code>

怎麼樣，是不是看起來更棒了：

以幾乎相同的操作來找到3個表現最差的學生-使用nsmallest（）功能：

<code>df.nsmallest(3,columns='Points')/<code>

輸出結果如下：

cut()

這一部分將繼續使用上一部分中的數據集，來回顧一下：

<code>df =pd.DataFrame(data={
    'Name': ['Bob', 'Mark', 'Josh','Anna', 'Peter', 'Dexter'],
    'Points': [37, 91, 66, 42, 99, 81]
})/<code>

cut（）函數的基本原理是將值分為不同的區間。下面是最簡單的示例，將從Points屬性創建兩個容器：

<code>pd.cut(df['Points'],bins=2)/<code>

現在還看不出效果。但是如何輸入從0到50的區間，以及第二個從50到100的區間呢？聽起來有點麻煩。以下為代碼：

<code>pd.cut(df['Points'],bins=[0, 50, 100])/<code>

但是需要注意的是，您要顯示的是Fail而不是（0，50]，要顯示Pass而不是（50，100]。你需要這樣做：

<code>pd.cut(df['Points'],bins=[0, 50, 100], labels=['Fail', 'Pass'])/<code>

對於剛入門的程序員，這些功能將有助於節省時間和精力；如果你是資深程序員，本文或許能幫你加強對這些函數的瞭解，避免每次都得從頭開始捋，因為這樣毫無意義。

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載，請後臺留言，遵守轉載規範

分享到:

關鍵字: 三大 Pandas cut

效率驚人！三大相見恨晚的Pandas函數

itertuples（）

nlargest（）和nsmallest（）

cut()

相關文章:

黃聖依8歲兒子獲贊100w，“科普書”喂大的孩子，到底有啥不一樣

熊貓總動員

Python數據分析必裝的6個第三方庫，pandas只是其中之一！

你還在用Pandas處理大量數據？我發現了一個省時省事的工具：Dask

什麼？大熊貓的英文竟然不是Panda？

三年級下學期英語期中測試卷視頻講解

使用Pandas進行數據處理，CSV、Excel文件載入和導出操作

提高生活幸福感的20件品質好物！買了從沒後悔過

手把手教你使用Python批量創建復工證明

華為天貓超級品牌日來臨 多重驚喜等著你

兩位翻翻動漫簽約漫畫家於默白漫畫大賽斬獲佳績

英國水彩畫家Joe Francis Dowden作品選

模型高手網 4月發表 模型作品集

這是一傢什麼樣的公司？

從分塊到並行：Dask使Pandas運行更快

嗨！火鍋！嗨！熊貓！High hotpot！High Panda

通過Apache Spark和Pandas輕鬆介紹Apache Arrow

只會柱狀圖、餅狀圖、折線圖怎麼行，來用Python畫個熱力圖

球鞋 | AJ1“Panda”來襲

90秒車訊 | 領克05正式上市 上海從這些領域減少霧霾

戰“疫”期，阿里云云效團隊在家高效開發實錄

想學好英語就和我一起吧，加油加油加油

python自動化辦公？學這些就夠用了

用python幫財務小姐姐自動生成財務報表

英文有聲繪本《Maisy Goes on a Sleepover》

留學必備乾貨｜去英國一定要下載的41個app

一起學數據分析之pandas(03)——索引對象

國寶傳奇：從雅安走向世界（中英文）

Spark 3.0發佈啦，改進SQL，棄Python 2，增強擴展，性能大幅提升

Drop+THX Panda 頭戴式「平板式揚聲器」藍牙耳機測評報告 「Soomal」

一場pandas與SQL的巔峰大戰（三）

Pandas 時間序列 - 縱覽與時間戳

Panda-themed subway trains launch tourism festival in Chengdu

Python數據分析，必須要求掌握pandas大熊貓

anaconda和jupyter的安裝與配置

Spark 3.0 新特性搶先看

今天是#mdl成都major# 的淘汰賽第二天，VG勝者組面對藝術組合Fighting PandaS，成功2:0戰勝對手，晉級到明天的勝者組第二輪！下面為大家帶來各位選手使用的英雄和數據。

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

華為天貓超級品牌日來臨多重驚喜等著你

模型高手網 4月發表模型作品集

90秒車訊 | 領克05正式上市上海從這些領域減少霧霾

Drop+THX Panda 頭戴式「平板式揚聲器」藍牙耳機測評報告「Soomal」

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？