初探：使用Python進行數據分析，內容優質_科技 _ 頭條網

在日常工作中，數據處理類的任務主要包括以下幾類：

與外界進行交互：讀寫各種數據文件及數據庫。

準備工作：對數據進行清理、修整、整合、規範化、重塑、切片切塊、變形等處理以便於進行分析。

轉換：對數據集進行數學統計運算產生新的數據集。（比如根據分組變量對一個大表進行聚合）

建模和計算：將數據與統計模型、機器學習算法或其他計算工具聯繫起來。

展示：創建交互式或靜態的圖片或文字摘要。

利用pandas對http://1.usa.gov數據時區進行計數：

DataFrame是pandas中最重要的數據結構，用於將數據表示為一個表格：

frame['tz']返回的Series對象有一個value_counts()方法，該方法統計Series中詞條出現的頻率，並按頻率降序排列:

記錄中缺失值可以用fillna函數替換，未知值可以用布爾型數組索引替換：

然後可以利用繪圖庫（matplotlib）的plot方法為這十條數據生成一張水平條形圖。（注意ipython一定要以pylab模式打開，否則以下代碼無效）

條形圖如下，統計.http://usa.gov數據中最常出現的時區:

還可以對這種類型的數據進行許多處理，以a字段為例，我們可以將a字段的第一節分離出來，得到一份用戶行為摘要：

現在可以按照Windows和非Windows用戶對時區統計信息進行分解：

接下來就可以按照時區和操作系統對數據進行分組，計數，重塑：

下面選取最常出現的時區：

然後我們使用stacked=True生成一張堆積條形圖：

為了看清較小分組中Windows用戶的比例，可以將各行規範化為“總計為1”，重新繪圖：

MovieLens 1M數據集

該數據集是一組電影評分數據，分為三個表：評分、用戶信息和電影信息，可以通過pandas.read_table將每個表讀到一個DataFrame對象中：

利用merge函數將所有數據合併到一個表中，並根據性別計算電影的平均得分：

過濾掉評分數據不足250條的電影，並瞭解女性觀眾最喜歡的電影（對F列降序）：

找出男性和女性觀眾分歧最大的電影：

找出分歧最大的電影（不考慮性別），可以計算得分的方差或標準差：

1880-2010全美嬰兒姓名

該數據集按年度分割成了多個文件，利用pandas.concat將所有數據組裝到一個DataFrame裡，並加上一個year字段：

將names數據在sex和year級別上進行聚合：

插入一個prop列，用於存放指定名字的嬰兒數相對於總出生數的比例：

驗證所有分組的prop總和是否為1：

為了便於進一步分析，取出該數據的一個子集：每對sex/year組合的前1000個名字：

接下來的數據分析工作就針對這個top1000數據集了。

幾個男孩和女孩名字隨時間變化的使用數量：

接下來還可以分析命名趨勢，命名多樣性的變化等，這裡由於對pandas方法還不是很熟悉，就不一一試驗了。

大多是《利用python進行數據分析》的筆記

相關文章:

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！