一起學數據分析之pandas(01)——數據結構介紹(Series) 頭條網

2020-12-11 13:20:29 佚名

<code>from pandas import Series, DataFrame
import pandas as pd
/<code>

要使用pandas，首先就得熟悉它的兩個主要數據結構：Series和DateFrame。雖然它們並不能解決所有問題，但它們為大多數應用提供了一種可靠的、易於使用的基礎。

Series是一種類似於一位數組的對象，它由一組數據(各種NumPy數據類型)以及一組與之相關的數據標籤(即索引)組成。僅有一組數據即可產生最簡單的Series:

In [26]:

<code>obj = Series([4,7,5,-3])
obj
/<code>

Out[26]:

<code>0    4
1    7
2    5
3   -3
dtype: int64/<code>

Series的字符表現形式為：索引在左邊，值在右邊。由於我們沒有為數據指定索引，於是會自動創建一個0到N-1(N為數據的長度)的整數型索引。你可以通過Series的values和index屬性獲取其數組表示形式的索引對象:

In [5]:

<code>obj.index
/<code>

Out[5]:

<code>RangeIndex(start=0, stop=4, step=1)/<code>

In [6]:

<code>obj.values
/<code>

Out[6]:

<code>array([ 4,  7,  5, -3])/<code>

通常，我們希望所創建的Series帶有一個可以對各個數據點進行標記的索引：

In [2]:

<code>obj2 = Series([4,7,-5,3], index=['d','b','a','c'])
obj2
/<code>

Out[2]:

<code>d    4
b    7
a   -5
c    3
dtype: int64/<code>

In [3]:

<code>obj2.index
/<code>

Out[3]:

<code>Index(['d', 'b', 'a', 'c'], dtype='object')/<code>

與普通的NumPy數據相比，你可以通過索引的方式選取Series中的單個或一組值:

In [4]:

<code>obj2['a']
/<code>

Out[4]:

<code>-5/<code>

In [5]:

<code>obj2['d'] = 6
obj2
/<code>

Out[5]:

<code>d    6
b    7
a   -5
c    3
dtype: int64/<code>

In [6]:

<code>obj2[['a','b','c','d']]
/<code>

Out[6]:

<code>a   -5
b    7
c    3
d    6
dtype: int64/<code>

NumPy數組運算(如根據布爾型數組進行過濾、標量乘法、應用數學函數等)都會保留索引和值之間的鏈接

In [7]:

<code>obj2
/<code>

Out[7]:

<code>d    6
b    7
a   -5
c    3
dtype: int64/<code>

In [8]:

<code>obj2[obj2 > 0]
/<code>

Out[8]:

<code>d    6
b    7
c    3
dtype: int64/<code>

In [9]:

<code>obj2 * 2
/<code>

Out[9]:

<code>d    12
b    14
a   -10
c     6
dtype: int64/<code>

In [11]:

<code>import numpy as np
np.exp(obj2)
/<code>

Out[11]:

<code>d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64/<code>

還可以將Series看成是一個定長的有序字典，因為它是索引值到數據值的一個映射。它可以用在許多原本需要字典參數的函數中：

In [12]:

<code>'b' in obj2
/<code>

Out[12]:

<code>True/<code>

In [13]:

<code>'e' in obj2
/<code>

Out[13]:

<code>False/<code>

如果數據被存放在一個Python字典中，也可以直接通過這個字典來創建Series:

In [14]:

<code>sdata = {'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}
/<code>

In [15]:

<code>obj3 = Series(sdata)
obj3
/<code>

Out[15]:

<code>Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64/<code>

如果只傳入一個字典，則結果Series中的索引就是原字典的鍵（有序排列）。

In [32]:

<code>states = ['California','Ohio','Oregon','Texas']
/<code>

In [33]:

<code>obj4 = Series(sdata, index=states)
/<code>

In [34]:

<code>obj4
/<code>

Out[34]:

<code>California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64/<code>

在上面的例子中，sdata中跟states索引相匹配的那3個值會被找出來並放到相應的位置上，但由於'California'所對應的sdata值找不到，所以其結果就為NaN（即'非數字'，在pandas中，它用於表示缺失或NA值）。我將使用缺失或NA表示缺失數據。pandas的isnull和notnull函數可用於檢測缺失數據：

In [35]:

<code>pd.isnull(obj4)
/<code>

Out[35]:

<code>California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool/<code>

In [36]:

<code>pd.notnull(obj4)
/<code>

Out[36]:

<code>California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool/<code>

Series也有類似的實例方法：

In [37]:

<code>obj4.isnull()
/<code>

Out[37]:

<code>California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool/<code>

在後面，我也會涉及到如何處理缺失數據的詳細內容。

對於許多應用而言，Series最重要的一個功能是：它在算術運算中會自動對齊不同索引的數據：

In [38]:

<code>obj3 + obj4
/<code>

Out[38]:

<code>California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64/<code>

數據對齊功能，後面會單獨介紹。

Series對象本身及其索引都有一個name屬性，該屬性跟pandas其他的關鍵功能關係非常密切：

In [39]:

<code>obj4.name = 'population'
obj4.index.name = 'state'
obj4
/<code>

Out[39]:

<code>state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64/<code>

Series的索引可以通過賦值的方式就地修改：

In [40]:

<code>obj.index = ['Bob','Steve','Jeff','Ryan']
/<code>

In [41]:

<code>obj
/<code>

Out[41]:

<code>Bob      4
Steve    7
Jeff     5
Ryan    -3
dtype: int64/<code>

分享到:

關鍵字: Oregon obj4 Ohio

一起學數據分析之pandas(01)——數據結構介紹(Series)

相關文章:

金友智能2019年淨利106.96萬增長221.01% 2019年主營業務毛利率有所增長

正業電子2019年淨利539.73萬增長118.01% 銀行借款減少

富達國民信息服務2020財年第三財季歸母淨利潤2000.00萬美元 同比減少87.01%

實力營業部現身龍虎榜，引力傳媒2日上漲21.01%（04-22）

我在農職的這些年 01

雙星新材2019年淨利1.73億 同比下滑46.01%

01-隱藏屬性

交流斷路器選擇【01】

萬龍電氣2019年淨利231.28萬下滑69.01% 銷售同比去年下降

央行：3月滬市日均交易量環比降9.69%，深市降13.01%

4月第3周：中山全市一手住宅網籤1005套，環比上漲1.01%

22日中小板指漲1.01%

三愛富：2019年淨利潤同比下降78.01% 擬10派1元

佛山奧迪Q8店內 最高優惠0.01%, 歡迎到店鑑賞

昇興股份2020年第一季度淨利719.83萬下滑48.01% 收到的政府補助減少所致

招商輪船大漲7.01% 航運行業整體漲幅2.91%

小隱傳-01

01.Python的發展歷史以及版本

運達科技第一季度盈利270.26萬同比增長15.01% 毛利額下降

三愛富2019年淨利1.19億下滑78.01% 重大資產重組

高新發展：預計2020年前三季度淨利潤為9000萬元~1.10億元，同比增長103.01%~148.12%

聖湘生物：預計第三季度淨利潤上修至同比增長9613.48%-10955.01%

多主力現身龍虎榜，華北製藥3日下跌22.01%（04-29）

北方華創2020年第一季度淨利2648.65萬增長33.01% 銷售及訂單、生產規模增加

金華開拓者可試乘, 購車優惠15.22%

多隻油氣類QDII跌幅超10% 南方原油A單日淨值跌幅18.01%

我的滬漂生活——01

週二004 英冠 巴恩斯利vs布萊克本 2020-07-01 01:00

01.30宅家避武漢肺炎太無聊啦？每天兩分鐘學十個單詞，OMG!

天能重工第一季度盈利3111.45萬同比增長10.01% 新增發電業務

2019年營收增長16.01%，利潤增長17.05%，茅臺還值得跟嗎？

12月21日日經225指數開盤上漲0.32%，韓國Kospi指數下跌0.01%

首季淨利潤增長100%-150% 國風塑業大漲5.01%

開車的時候應該聽這些音樂。

華特東方（HTDF）公鏈項目週報2020-01-13到2020-01-17

攀枝花首家民營企業在中小板掛牌上市 開盤漲幅44.01%

#尋找小時候的美食#01

01 敗訴方是否應承擔勝訴方的律師費

臺基股份2019年報淨利潤-2.20億，同比下降557.01%

多主力現身龍虎榜，*ST樂通3日下跌13.01%（04-30）

收入約18.01億元！“雙節”期間 雲巖區接待遊客119.01萬人次

大學英語六級長篇閱讀1.01

01.04週五早盤操作策略（附股）

貴繩股份2019年淨利2919.88萬增長14.01% 產品銷售量價齊增所致

大表姐勞倫斯-01

【深滬股市雙雙跌超2%，權重股砸盤】收盤了，上證指數跌-2.18%，深證成指跌-2.18%，創業板跌-1.01%。

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

富達國民信息服務2020財年第三財季歸母淨利潤2000.00萬美元同比減少87.01%

雙星新材2019年淨利1.73億同比下滑46.01%

佛山奧迪Q8店內最高優惠0.01%, 歡迎到店鑑賞

週二004 英冠巴恩斯利vs布萊克本 2020-07-01 01:00

攀枝花首家民營企業在中小板掛牌上市開盤漲幅44.01%

收入約18.01億元！“雙節”期間雲巖區接待遊客119.01萬人次

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？