聽說這些pandas函數,是數據科學家和軟件工程師的最愛

全文共2758字,預計學習時長13分鐘


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

圖源:unsplash


軟件工程師該像是索引,而不是教科書。你無法記住所有內容,但得知道如何快速查找它們。


能夠快速查找和使用函數讓我們在編寫代碼時可以達到一定的流暢程度。因此筆者創建了這份自己每天都在使用的、用於構建網絡應用程序和機器學習模型的函數備忘清單。


它不算詳盡,但包含了筆者最常使用的函數、示例,以及該何時使用的有效見解。


1.安裝


如果想自己運行這些示例,請從Kaggle下載Anime推薦數據集,將其解壓縮並放入與jupyter notebook相同的文件夾中。


接下來運行這些指令,應該能重複得出以下任一函數的結果。


<code>

import

pandas

as

pd

import

numpy

as

npanime =pd.read_csv(

'anime-recommendations-database/anime.csv'

) rating = pd.read_csv(

'anime-recommendations-database/rating.csv'

)anime_modified= anime.set_index(

'name'

)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

圖源:unsplash


2.輸入


輸入CSV(逗號分隔值)


將CSV直接轉換為數據框。有時CSV載入數據還需要指定一種編碼(即:encoding='ISO-8859–1')。如果數據框包含不可讀的字符,應首先嚐試上述方法。


對於表格文件,存在一個叫做pd.read_excel的類似函數。


<code>

anime

=pd.read_csv(

'anime-recommendations-database/anime.csv'

)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

根據輸入數據構建數據框


這在手動示例化簡單數據時十分有用,方便查看這些數據運行時如何變化。


<code>

df

= pd.DataFrame([[

1

,

'Bob'

,

'Builder'

], [

2

,

'Sally'

,

'Baker'

], [

3

,

'Scott'

,

'CandleStick Maker'

]], columns=[

'id'

,

'name'

,

'occupation'

])/<code>
聽說這些pandas函數,是數據科學家和軟件工程師的最愛

<code>

df

.head

()/<code>


複製數據框


想保留原始副本同時對數據框進行更改,複製數據框很有用。在輸入數據框後立即對其進行復制是很好的做法。


<code>

anime_copy

=anime.copy(deep=

True

)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

3.查看和檢驗


獲取頂部或底部的n項記錄


顯示數據框中的前n項記錄。筆者通常在notebook中的某個位置打印數據框的頂部記錄,以便在忘記其中的內容時可以返回來參考。


<code>

anime

.head

(3)

rating

.tail

(1)/<code>
聽說這些pandas函數,是數據科學家和軟件工程師的最愛

聽說這些pandas函數,是數據科學家和軟件工程師的最愛

計算行數


這本身不是pandas函數,而是len()函數對行進行計數,並將其保存到變量中,在其他地方使用。


<code>

len

(df) /<code>


計算唯一行


計算一列中的唯一值。


<code>

len

(

ratings

[

'user_id'

]

.unique

())/<code>


獲取數據框信息


對於獲取一些常規信息(如標題、值的數量和按列的數據類型)很有用。df.dtypes是一個類似但實用性低的函數,僅提供列數據類型。


<code>

anime

.info

()/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

獲取統計數據


如果數據框具有很多數值,獲取統計數據非常有用。瞭解評級列的平均值,最小值和最大值,可以大致瞭解數據框。


<code>

anime

.describe

()/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

獲取值總和


獲取特定列的值總和。


<code>

anime

.type

.value_counts

()/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

4.輸出


保存為CSV格式


這將轉儲到與notebook相同的目錄。筆者只保存下面的前10行,但讀者不需要這樣做。同樣,也可使用df.to_excel() 函數,將表格文件保存為CSV格式。


<code>

rating

[:10]

.to_csv

(

'saved_ratings.csv'

,index=False)/<code>


5.選取


獲取列的值清單或一系列值


需要將列中的值放入X和y變量中以適應機器學習模型時,此方法有效。


<code>

anime

[

'genre'

]

.tolist

()

anime

[

'genre'

]

/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

<code>

anime

[‘genre’]

.tolist

()/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

<code>

anime

[‘genre’]

/<code>


獲取索引值列表


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

圖源:unsplash


通過索引創建數值列表。請注意,這裡使用了anime_modified數據框,因為索引值更加有趣。


<code>

anime_modified

.index

.tolist

()/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

獲取列值列表


<code> 

anime

.columns

.tolist

()/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

6.添加/刪除


用設置值附加新列


偶爾,當測試集和訓練集在兩個單獨的數據框中,並想在組合它們之前分別標記出行與集的對應關係時,筆者會這樣做。


<code>anime[

'train set'

] =

True

/<code>


從一部分列中創建新的數據框


此方法用於只想保留巨型數據框中的幾列並且不想指定刪除列時。


<code>anime

[['name','episodes']]

/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

刪除指定列


刪除指定列用於僅需刪除幾列時。否則,寫出全部內容可能會很乏味,筆者更喜歡前者,刪除指定列。


<code>

anime

.drop

([

'anime_id'

,

'genre'

,

'members'

], axis=

1

)

.head

()/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

添加其他行總和的一行


因其更易於查看,故在此處手動創建一個小型數據框。這裡的有趣之處在於,df.sum(axis=0)將值添加到各行或各列中。


計算總和或平均值時,採用同樣的邏輯,如:


<code> df.mean(axis=

0

). df = pd.DataFrame(

[[1,'Bob',8000], [2,'Sally', 9000], [3,'Scott', 20]]

,columns=[

'id'

,

'name'

,

'power level'

])df.append(df.sum(axis=

0

),ignore_index=True)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

7.合併


串聯兩個數據框


用於同行有兩個數據框,並想將其組合的情況。這裡將數據框分成兩部分,然後重新將它們添加在一起。


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

圖源:unsplash


<code>

df1

= anime[

0

:

2

]df2 =anime[

2

:

4

]pd.concat([df1, df2], ignore_index=

True

)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

聽說這些pandas函數,是數據科學家和軟件工程師的最愛

聽說這些pandas函數,是數據科學家和軟件工程師的最愛

合併數據框


想將兩個數據框合併在一列時,合併數據框就如同SQL(結構化查詢語言)的左聯接用法。


<code>

rating

.merge

(anime,left_on=’anime_id’, right_on=’anime_id’, suffixes=(‘_left’, ‘_right’))/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

8.篩選


檢索匹配索引值的行


anime_modified中的索引值是動漫的名稱。請注意,如何使用這些名稱來獲取特定列。


<code>anime_modified.loc

[['Haikyuu!!Second Season','Gintama']]

/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

通過編號索引值來檢索行


與上面的函數不同,使用 iloc,第一行的索引值為0,第二行的索引值為1,以此類推……即便在修改數據框後,在索引列中使用字符串值。


使用此函數,當你想獲得數據框中的前3行。


<code>

anime_modified

.iloc

[0:3]

/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

獲取行


在給定列表的列值中檢索行。匹配單個值時,anime[anime[‘type’] == 'TV']也適用。


<code>

anime

[anime[

'type'

]

.isin

(

[

'TV'

,

'Movie'

]

)]/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

拆分數據框


這就像拆分表格一樣。拆分數據框,來獲取在特定索引前/中/後的所有行。


<code>

anime

[1:3]

/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

通過值篩選


篩選符合條件的行的數據框。但注意,這將維持現有的索引值。


<code>

anime

[anime[

'rating'

]

> 8]/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

9.排序


排序函數sort_values


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

圖源:unsplash


按列中的值對數據框進行排序。


<code>anime.sort_values(

'rating'

,

ascending

=False)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

10.彙總


分組和計數


計算列中每個不同值的記錄數。


<code>

anime

.groupby

(

'type'

)

.count

()/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

以不同方式對列進行分組和彙總


注意,筆者添加了 reset_index() 函數,否則,下文的“type”列將成為索引列——筆者建議在多數情況下這樣做。


<code>anime.groupby([

"type"

]).agg({

"rating"

:

"sum"

,

"episodes"

:

"count"

,

"name"

:

"last"

}).reset_index()/<code>


創建數據透視表


數據透視表是最適合從數據框中提取數據子集的工具。


需注意,筆者已對數據框進行了大量篩選,因此可以更快地構建數據透視表。


<code>tmp_df = rating.copy()
tmp_df.sort_values(

'user_id'

, ascending=True, inplace=True) tmp_df = tmp_df[tmp_df.user_id

10

] tmp_df = tmp_df[tmp_df.anime_id

30

] tmp_df = tmp_df[tmp_df.rating != -

1

]pd.pivot_table(tmp_df,

values

=

'rating'

,

index

=[

'user_id'

], columns=[

'anime_id'

], aggfunc=np.sum, fill_value=

0

)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

11.整理


設置非數(NaN)單元格為某個值


設置非數值單元格為0。示例中,筆者像之前一樣創建了相同的數據透視表,但不使用fill_value=0,而是使用 fillna(0)進行填充。


<code>pivot = pd.pivot_table(tmp_df, 

values

=

'rating'

,

index

=[

'user_id'

],

columns

=[

'anime_id'

], aggfunc=np.sum)pivot.fillna(

0

)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

聽說這些pandas函數,是數據科學家和軟件工程師的最愛

12.其他


採樣數據框


筆者一直從較大的數據框中提取少量樣本。如果frac = 1,則可以在保留索引的情況下隨機重新排行。


<code>

anime

.sample

(frac=

0.25

)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

迭代行索引


在數據框中迭代索引和行。


<code>

for

idx

,

row

inanime

[:2]

.iterrows

():

print

(idx, row)/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

啟動jupyter notebook


以高數據速率限制啟動jupyter notebook程序。


<code>

jupyter

notebook —NotebookApp.iopub_data_rate_limit=

1

.0e10/<code>


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

圖源:unsplash


你最喜歡哪些函數呢?


聽說這些pandas函數,是數據科學家和軟件工程師的最愛

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範


分享到:


相關文章: