2020-03-13 11:24:13 碎片時間

在學習pandas之前，首先需要安裝pandas，可以通過pip install pandas安裝或者直接安裝Anaconda。本文不再贅述，可參考官方文檔安裝。

動漫數據集

背景描述

該數據集包含來自myanimelist.net的73516個用戶的12294部動漫的用戶偏好數據的信息。每個用戶都可以將動畫添加到已完成的列表中併為其評分，此數據集是這些評級的彙編。

數據說明

數據集Anime.csv包含以下字段：

anime_id - myanimelist.net標識動漫的唯一ID。
name - 動漫的全名。
genre - 逗號分隔的動畫類型列表。
type - 電影，電視，OVA等
episodes - 這部劇中有多少劇集（如果是電影的話就是1）。
rating - 此動漫的平均評分滿分10分。
members - 此動漫的“組”中的社區成員數。

數據集Rating.csv包含以下字段：

user_id - 不可識別的隨機生成的用戶ID。
anime_id - 此用戶評分的動漫。
rating - 此用戶已分配的評分為10（如果用戶觀看但未指定評級，則為-1）。

數據來源

https://www.kaggle.com/CooperUnion/anime-recommendations-database

數據初探

一切就緒後，開始讀取動漫數據，看看數據都有啥...

<code>In:
df_anime = pd.read_csv("./Anime.csv", header=0, sep=",")
df_anime.shape

Out:
(12294, 7)/<code>

文件讀取是pandas最基礎的功能pd.read_csv( )，負責把 csv 文件讀入進來，其中sep代表的是分隔符；讀取excel文件可以使用pd.read_excel()。

維度查看可以使用shape，其計算該文件有多少行、多少列。該數據集有12294行，7列。

<code>In:
df_anime.info()

Out:
<class>
RangeIndex: 12294 entries, 0 to 12293
Data columns (total 7 columns):
anime_id    12294 non-null int64
name        12294 non-null object
genre       12232 non-null object
type        12269 non-null object
episodes    12294 non-null object
rating      12064 non-null float64
members     12294 non-null int64
dtypes: float64(1), int64(2), object(4)
memory usage: 672.5+ KB/<class>/<code>

info() 這個輸出的信息量很大，有索引、列名、列的數據類型 ( int64、float64、object )以及內存佔用情況。

可以看出動漫數據共有7列、該數據集共出現了3中數據類型。

<code>In:
df_anime.describe()

Out:
anime_id\trating\tmembers
count\t12294.000000\t12064.000000\t1.229400e+04
mean\t14058.221653\t6.473902\t1.807134e+04
std\t11455.294701\t1.026746\t5.482068e+04
min\t1.000000\t1.670000\t5.000000e+00
25%\t3484.250000\t5.880000\t2.250000e+02
50%\t10260.500000\t6.570000\t1.550000e+03
75%\t24794.500000\t7.180000\t9.437000e+03
max\t34527.000000\t10.000000\t1.013917e+06/<code>

describe() 對數值型變量進行統計性描述，對於變量類型是 int64 和 float64 的數值型變量，列出了個數、均值、方差、最小值、最大值和四分位數。比如，動漫整體的平均評分是6.47分。

<code>In:
df_anime.head()
df_anime.tail()/<code>

head( ) 方法會默認顯示出 DataFrame 的前 5 行數據。

tail( ) 方法會默認顯示 DataFrame 的後 5 行數據。

如果想要顯示多於 5 行的數據，傳入參數即可，比如 df_anime.head(10) 表示顯示前 10 行數據，tail(20) 表示顯示後 20 行數據。

小總結

pd.read_csv( )，負責把 csv 文件讀入進來。
shape，維度查看，顯示有多少行、多少列。
info() 輸出索引、列名、列的數據類型以及內存佔用情況。
describe( ) 對數值型變量進行統計性描述。
head( n ) 顯示數據前 n 行。
tail(n) 顯示數據後n行。

碎片時間，關注收藏。公眾號：數據科學實踐。

分享到:

閱讀更多 碎片時間 的文章

關鍵字: Excel 最愛動畫

妹控們最愛的動漫(1)

動漫數據集

數據初探

小總結

相關文章:

妹控們最愛的動漫(1)

動漫數據集

數據初探

小總結

相關文章:

瀝秋 花輪和小丸子

葉羅麗官方最愛的人物特寫方式

02.16 葉羅麗官方最愛的人物特寫方式

魏無羨 最好的角色...

10.29 FATE：最愛吾王！saber畫得也太棒了，最愛的風格沒有之一

10.15 「046」最愛《火炎之紋章 系譜》的理由

高達系列壁紙（五）巴巴託斯-最愛

這樣的男生才是女生的“最愛”！（漫畫）

《哥布林殺手》正宮之爭？哥布林：別爭了，我才是他的「最愛」！

從上海出發，這部國漫“給世界好看”

阿湯哥登陸太空拍電影，星球大戰推出芭比娃娃｜直男Daily

漫威將開發惡靈騎士 有望在《奇異博士2》中登場

漫畫：盤點“渣男”VS“渣女”的那點事

官方確認TV動畫《我的青春戀愛物語果然有問題》第三季7月放送

故事：你見過哪些人心不足蛇吞象，最後卻偷雞不成蝕把米的人和事

好像每隔一段時間，就會有“負能量”來敲我的門，你是否也這樣？

大神原創的四個奧特曼，其中一個帶翅膀，一個頭頂圓鍋

9.1回憶殺上線，今晚別勸我冷靜

蝙蝠俠來了

Cos屆最帥女王者熊祁，cos動漫帥哥神還原，每一張都帥炸了

大愛戰鬥少女手辦，怎一個酷字了得，華麗的舞姿讓人難忘

二次元美圖——第2期

超高清御姐二次元壁紙

非人哉：戀愛的感覺讓人窒息？那麼是什麼讓嘯天抱緊瓦陶陶？

獸耳女主被抓住尾巴，圖三一臉享受，最後一個被觀眾截屏

《鬼滅之刃》204話完結撒花，豬葵鎖定CP，鱷魚要開啟現代篇

除了心之外還要命，盤點動漫中的美女殺手，你最喜歡誰

分析：世界政府會選擇廢除“王下七武海”組織的具體原因

寵物小精靈：美女小霞的神奇寶貝盤點

網曝《鬼滅之刃》推出第二季現代篇，走JOJO老路引網友吐槽

《後浪》刷屏力圖破壁二次元，B站還有哪些短板？

奧特曼“毀”童年：摳鼻子已成過往，奧特曼洗手見過嗎？

龍貞德COS

一人之下：“非腐”只是一種態度，王也和諸葛青在心中“彎”了？

王者榮耀小喬cos可愛嗎

超級美麗的妖刀姬cos

陰陽師不知火cos

有個這樣的男朋友也太太太太棒了吧！好幸福！（漫畫）

斗羅大陸中最可怕的的七條毒蛇，曼陀羅蛇倒數，第一有十個頭！

電影《頭文字D新劇場版》2021上映 周提峰擔任中方製片

重口味，國王遊戲，膽小慎入

對於《一人之下》中的主角馮寶寶，你們真的瞭解她嗎？

國漫葉羅麗遭網友吐槽挖坑太多，神祕人物接連出場引發熱議

如果葉羅麗中沒有王默這個角色存在，或許此時的女主角就是文茜了

葉羅麗：五大經典瞬間，冰公主單膝跪地，王默變成個大胖子

動漫壁紙：幹物妹合集

看了腐團兒的這兩次COS後，水友：明明可以不用戰術後退就很美

天鵝夢COS，願為一切美好而起舞。

世界上最有錢的國王，一次出國旅行花掉的黃金，搞垮了全球經濟

腐團兒又出新作，看到她的艦娘，觀眾：不愧是最美二次元女主播

假期過了查漏補缺！5月經典番劇推薦TOP16

連海軍本部都出動七武海了，為何白鬍子不找外援幫助自己救艾斯？

漫畫：越是內向的人，越厲害

一人之下：配角也能吸引粉絲，這幾個角色出場不多，但人氣很高

木綿綿 加藤惠 cos

《斗羅大陸》為何這麼火？故事內容宏大是其次，小舞才是最重要的

《大魚海棠》評價雖差，但真正看懂的人不多，椿對鯤展現的是母愛

身邊的戰疫--【立夏篇】

當代男女黑眼圈聲明，白天的壓抑到了夜晚才開始騷動！（漫畫）

在哈爾濱上好一點的中學，在哪買房子比較好？

5月21日是克羅地亞球星曼朱基齊生日，如何評價他的職業生涯？-悟空問答

如何看待小國聖馬力諾？-悟空問答

有人說“人要適當自私一點，不要無腦的善良和大方”，你怎麼看？

谷歌Pixel Buds的快速配對功能，會推廣到其它Android設備上嘛？

看見某些人就渾身難受，難以相處怎麼辦？

為什麼玉兔月球車速度慢，美國月球車與之相比會跑得更快？-悟空問答

什麼是誘多？

教育機構年40w利潤，估值200w，員工入股2w 1股合不合理？

為什麼感覺我國A股走勢好像會受美國股市影響？

美人月季怎麼修剪？

五一帶幼兒園小朋友去哪裡玩？

在農村，鄰居不分時間段地來自家門前的水龍頭打水，怎麼拒絕最好？

如果你有送孩子出去留學的機會，你是選擇讓孩子去還是不讓？

蘇東坡是北宋大文人，在歷史上他受皇帝賞識嗎？

牡丹開過花的枝條能泡出根鬚嗎？如何養護？

瀝秋花輪和小丸子

魏無羨最好的角色...

10.15 「046」最愛《火炎之紋章系譜》的理由

漫威將開發惡靈騎士有望在《奇異博士2》中登場

電影《頭文字D新劇場版》2021上映周提峰擔任中方製片

木綿綿加藤惠 cos