妹控們最愛的動漫(1)

在學習pandas之前,首先需要安裝pandas,可以通過pip install pandas安裝或者直接安裝Anaconda。本文不再贅述,可參考官方文檔安裝。

妹控們最愛的動漫(1) | pandas基礎

動漫數據集

背景描述

該數據集包含來自myanimelist.net的73516個用戶的12294部動漫的用戶偏好數據的信息。每個用戶都可以將動畫添加到已完成的列表中併為其評分,此數據集是這些評級的彙編。

數據說明

數據集Anime.csv包含以下字段:

  • anime_id - myanimelist.net標識動漫的唯一ID。
  • name - 動漫的全名。
  • genre - 逗號分隔的動畫類型列表。
  • type - 電影,電視,OVA等
  • episodes - 這部劇中有多少劇集(如果是電影的話就是1)。
  • rating - 此動漫的平均評分滿分10分。
  • members - 此動漫的“組”中的社區成員數。

數據集Rating.csv包含以下字段:

  • user_id - 不可識別的隨機生成的用戶ID。
  • anime_id - 此用戶評分的動漫。
  • rating - 此用戶已分配的評分為10(如果用戶觀看但未指定評級,則為-1)。

數據來源

https://www.kaggle.com/CooperUnion/anime-recommendations-database

妹控們最愛的動漫(1) | pandas基礎

數據初探

一切就緒後,開始讀取動漫數據,看看數據都有啥...

<code>In:
df_anime = pd.read_csv("./Anime.csv", header=0, sep=",")
df_anime.shape

Out:
(12294, 7)/<code>

文件讀取是pandas最基礎的功能pd.read_csv( ),負責把 csv 文件讀入進來,其中sep代表的是分隔符;讀取excel文件可以使用pd.read_excel()。

維度查看可以使用shape,其計算該文件有多少行、多少列。該數據集有12294行,7列。

<code>In:
df_anime.info()

Out:
<class>
RangeIndex: 12294 entries, 0 to 12293
Data columns (total 7 columns):
anime_id 12294 non-null int64
name 12294 non-null object
genre 12232 non-null object
type 12269 non-null object
episodes 12294 non-null object
rating 12064 non-null float64
members 12294 non-null int64
dtypes: float64(1), int64(2), object(4)
memory usage: 672.5+ KB/<class>/<code>

info() 這個輸出的信息量很大,有索引、列名、列的數據類型 ( int64、float64、object )以及內存佔用情況。

可以看出動漫數據共有7列、該數據集共出現了3中數據類型。

<code>In:
df_anime.describe()

Out:
anime_id\trating\tmembers
count\t12294.000000\t12064.000000\t1.229400e+04
mean\t14058.221653\t6.473902\t1.807134e+04
std\t11455.294701\t1.026746\t5.482068e+04
min\t1.000000\t1.670000\t5.000000e+00
25%\t3484.250000\t5.880000\t2.250000e+02
50%\t10260.500000\t6.570000\t1.550000e+03
75%\t24794.500000\t7.180000\t9.437000e+03
max\t34527.000000\t10.000000\t1.013917e+06/<code>

describe() 對數值型變量進行統計性描述,對於變量類型是 int64 和 float64 的數值型變量,列出了個數、均值、方差、最小值、最大值和四分位數。比如,動漫整體的平均評分是6.47分。

<code>In:
df_anime.head()
df_anime.tail()/<code>
妹控們最愛的動漫(1) | pandas基礎

妹控們最愛的動漫(1) | pandas基礎

head( ) 方法會默認顯示出 DataFrame 的前 5 行數據。

tail( ) 方法會默認顯示 DataFrame 的後 5 行數據。

如果想要顯示多於 5 行的數據,傳入參數即可,比如 df_anime.head(10) 表示顯示前 10 行數據,tail(20) 表示顯示後 20 行數據。

小總結

  • pd.read_csv( ),負責把 csv 文件讀入進來。
  • shape,維度查看,顯示有多少行、多少列。
  • info() 輸出索引、列名、列的數據類型以及內存佔用情況。
  • describe( ) 對數值型變量進行統計性描述。
  • head( n ) 顯示數據前 n 行。
  • tail(n) 顯示數據後n行。
妹控們最愛的動漫(1) | pandas基礎


碎片時間,關注收藏。公眾號:數據科學實踐。


分享到:


相關文章: