Python數據清洗--類型轉換和冗餘數據刪除技术頭條網

私信我或關注猿來如此呀公眾號，回覆：數據學習，免費領取學習資源包

數據分析過程中最頭疼也是工作量最大的部分算是探索和清洗了，探索的目的是瞭解數據，瞭解數據背後隱藏的規律，清洗的目的則是為了讓乾淨的數據進入分析或建模的下一個環節。作者將通過三篇文章，詳細講解工作中常規的數據清洗方法，包括數據類型的轉換，重複數據的處理，缺失值的處理以及異常數據的識別和處理。這是第一篇文章，主要分享的內容包括，文中涉及到的數據可以至文末查看下載鏈接：

數據類型的轉換

冗餘數據的識別和處理

數據類型的判斷和轉換

如下表所示，為某公司用戶的個人信息和交易數據，涉及的字段為用戶id、性別、年齡、受教育水平、交易金額和交易日期。從表面上看，似乎沒有看出數據背後可能存在的問題，那接下來就將其讀入到Python中，並通過探索的方式發現數據中的問題。

讀取數據，以及查看數據規模、查看數據中各變量的數據類型的代碼如下：

# 導入第三方包
import pandas as pd
# 讀入外部數據
data3 = pd.read_excel(io=r'C:UsersAdministratorDesktopdatasdata3.xlsx')
# 查看數據的規模
data3.shape
out:
(3000, 6)
# 查看錶中各變量的數據類型
# data3.dtypes
out:

表中各變量的數據類型如表下表所示：

上述代碼利用shape“方法”返回了數據集的規模，即該數據包含3000行6列；通過dtypes“方法”則返回了數據集中各變量的數據類型——除id變量和age變量為數值型，其餘變量均為字符型。直觀上能夠感受到一點問題，即數據類型不對，例如用戶id應該為字符型，消費金額custom_amt為數值型，訂單日期為日期型。如果發現數據類型不對，如何藉助於Python工具實現數據類型的轉換呢？可參照如下代碼的實現。

# 數值型轉字符型
data3['id'] = data3['id'].astype(str)
# 字符型轉數值型
data3['custom_amt'] = data3['custom_amt'].str[1:].astype(float)
# 字符型轉日期型
data3['order_date'] = pd.to_datetime(data3['order_date'], format = '%Y年%m月%d日')
# 重新查看數據集的各變量類型
data3.dtypes
out:

這些數據經過處理後，各個字段的數據類型如下表所示：

如上結果所示，三個變量全都轉換成了各自所期望的數據類型。astype“方法”用於數據類型的強制轉換，可選擇的常用轉換類型包括str（表示字符型）、float（表示浮點型）和int（表示整型）。由於消費金額custom_amt變量中的值包含人民幣符號“￥”，所以在數據類型轉換之前必須將其刪除（通過字符串的切片方法刪除，

[1:]表示從字符串的第二個元素開始截斷）。對於字符轉日期問題，推薦使用更加靈活的to_datetime函數，因為它在format參數的調節下，可以識別任意格式的字符型日期值。

需要注意的是，Python中的函數有兩種表現形式，一種是常規理解下的函數（語法為func(parameters)，如to_datetime函數），另一種則是“方法”（語法為obj.func(parameters)，如dtypes和astype“方法”）。兩者的區別在於 “方法”是針對特定對象的函數（即該“方法”只能用在某個固定類型的對象上），而函數並沒有這方面的限制。

基於如上類型的轉換結果，最後瀏覽一下數據的展現形式：

# 預覽數據的前5行
data3.head()

冗餘數據的判斷和處理

如上過程是對數據中各變量類型的判斷和轉換，除此還需要監控表中是否存在“髒”數據，如冗餘的重複觀測和缺失值等。可以通過duplicated“方法”進行 “髒”數據的識別和處理。仍然對上邊的data3數據為例進行操作，具體代碼如下所示。

# 判斷數據中是否存在重複觀測
data3.duplicated().any()
out:
False

如上結果返回的是False，說明該數據集中並不存在重複觀測。假如讀者利用如上的代碼在數據集中發現了重複觀測，可以使用drop_duplicates“方法”將冗餘信息刪除。

需要說明的是，在使用duplicated“方法”對數據行作重複性判斷時，會返回一個與原數據行數相同的序列（如果數據行沒有重複，則對應False，否則對應True），為了得到最終的判斷結果，需要

再使用any“方法”（即序列中只要存在一個True，則返回True）。

duplicated“方法”和drop_duplicates“方法”都有一個非常重要的參數，就是subset。默認情況下不設置該參數時，表示對數據的所有列進行重複性判斷；如果需要按指定的變量做數據的重複性判斷時，就可以使用該參數指定具體的變量列表。舉例如下：

# 構造數據
df = pd.DataFrame(dict(name = ['張三','李四','王二','張三','趙五','丁一','王二'],
 gender = ['男','男','女','男','女','女','男'],
 age = [29,25,27,29,21,22,27],
 income = [15600,14000,18500,15600,10500,18000,13000],
 edu = ['本科','本科','碩士','本科','大專','本科','碩士']))
# 查看數據
df

目測有兩條數據完全一樣，就是用戶張三，如果直接使用drop_duplicates“方法”，而不做任何參數的修改時，將會刪除第二次出現的用戶張三。代碼如下：

# 默認情況下，對數據的所有變量進行判斷
df.drop_duplicates()

假設在數據清洗中，用戶的姓名和年齡相同就認為是重複數據，那麼該如何基於這兩個變量進行重複值的刪除呢？此時就需要使用subset參數了，代碼如下：

df.drop_duplicates(subset=['name','age'])

需要注意的是，使用drop_duplicates“方法”刪除重複數據，並不能直接影響到原始數據，即原始數據中還是存在重複觀測的。如需使drop_duplicates“方法”的刪除功能作用在原始數據中，必須將inplace參數設置為True。

私信我或關注猿來如此呀公眾號，回覆：數據學習，免費領取學習資源包

分享到:

閱讀更多 猿來如此呀 的文章

關鍵字: 冗餘數據類型 Python

Python數據清洗--類型轉換和冗餘數據刪除

相關文章:

Python 63個內置函數

Python Turtle畫分形樹理解遞歸

python 內存管理

python 遞歸輸出文件

Python 中的

python copy

Python—turtle畫圖（哆啦A夢）

python 協程

Python 繪圖以及文件的基本操作

Python wordcloud庫介紹

python 閉包

Python 判斷列表是否已排好序

python：序列和元組的區別

Python While 循環語句介紹

03.04 Python While 循環語句介紹

03.01 Python 模塊

python 註釋

python pandas數據清洗

Python 中的bool值

python-unittest基本介紹

Python 分發包中添加額外文件

# Python 3 # Python 3字典Dictionary（2）

# Python 3 # Python 3字典Dictionary（1）

# Python 3 # Python 3運算符（4）

# Python 3 # Python 3基本數據類型（3）

12.21 python lambda表達式簡單用法

python :中文大寫轉阿拉伯數字（金額）

python str和bytes的區別

Python 的四種共享傳參詳解

[PYTHON]，字符串的查找，什麼時候能混到給錢不用找零了

說說在 Python 中如何導入類

[PYTHON]，字符串的大小寫，大賭場小賭場大小賭場賭大小

[PYTHON]，字符串的類型判斷，只聽得驚堂木一拍

[PYTHON]，字符串轉義字符，字符串變身

python 音頻處理

python 可變對象和不可變對象

Python 程序運行時間計時

python 字典底層實現原理

06.20 Python 枚舉類型 Enum

06.17 Python Lambda 表達式

06.17 Python 數據類型轉換

06.16 Python 中的包 Packages

06.09 Python 正則表達式斷言 Assertions

06.09 Python 異常處理

python-with語法

05.27 python-with語法

python-as語法

05.27 python-as語法

「python」高階函數map、reduce的介紹

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？