「分享」數據清洗技術研究

今天來了個急活,有個招標文件,關於數據清洗相關的技術,都沒有搞過,只能先從網上整理找一些,先整理這些,供參考,都來源於網絡。


數據清洗技術研究

1. 數據清洗的作用性

數據清洗工作是數據分析工作中不可缺少的步驟,這是因為數據清洗能夠處理掉骯髒數據,如果不清洗數據的話,那麼數據分析的結果準確率會變得極低。另外數據清洗工作佔據數據分析工作整個過程的七成以上的時間,所以說我們要格外的重視數據清洗工作。

2. 數據清理的流程

2.1. 預處理階段

預處理階段主要做兩件事情:

一是將數據導入處理工具。

通常來說,建議使用數據庫,單機跑數搭建MySQL環境即可。如果數據量大(千萬級以上),可以使用文本文件存儲+Python操作的方式。

二是看數據。

這裡包含兩個部分:一是看元數據,包括字段解釋、數據來源、代碼表等等一切描述數據的信息;二是抽取一部分數據,使用人工查看方式,對數據本身有一個直觀的瞭解,並且初步發現一些問題,為之後的處理做準備。

2.2. 第一步:缺失值清洗

缺失值是最常見的數據問題,處理缺失值也有很多方法,我建議按照以下四個步驟進行:

1、確定缺失值範圍:

對每個字段都計算其缺失值比例,然後按照缺失比例和字段重要性,分別制定策略,可用下圖表示:

2、去除不需要的字段:

這一步很簡單,直接刪掉即可……但強烈建議清洗每做一步都備份一下,或者在小規模數據上試驗成功再處理全量數據,不然刪錯了會追悔莫及(多說一句,寫SQL的時候delete一定要配where!)。


3、填充缺失內容:

某些缺失值可以進行填充,方法有以下三種:

以業務知識或經驗推測填充缺失值

以同一指標的計算結果(均值、中位數、眾數等)填充缺失值

以不同指標的計算結果填充缺失值

前兩種方法比較好理解。關於第三種方法,舉個最簡單的例子:年齡字段缺失,但是有屏蔽後六位的身份證號,so……

4、重新取數:如果某些指標非常重要又缺失率高,那就需要和取數人員或業務人員瞭解,是否有其他渠道可以取到相關數據。

以上,簡單的梳理了缺失值清洗的步驟,但其中有一些內容遠比我說的複雜,比如填充缺失值。很多講統計方法或統計工具的書籍會提到相關方法,有興趣的各位可以自行深入瞭解。

2.3. 第二步:格式內容清洗

如果數據是由系統日誌而來,那麼通常在格式和內容方面,會與元數據的描述一致。而如果數據是由人工收集或用戶填寫而來,則有很大可能性在格式和內容上存在一些問題,簡單來說,格式內容問題有以下幾類:

1、時間、日期、數值、全半角等顯示格式不一致

這種問題通常與輸入端有關,在整合多來源數據時也有可能遇到,將其處理成一致的某種格式即可。

2、內容中有不該存在的字符

某些內容可能只包括一部分字符,比如身份證號是數字+字母,中國人姓名是漢字(趙C這種情況還是少數)。最典型的就是頭、尾、中間的空格,也可能出現姓名中存在數字符號、身份證號中出現漢字等問題。這種情況下,需要以半自動校驗半人工方式來找出可能存在的問題,並去除不需要的字符。

3、內容與該字段應有內容不符

姓名寫了性別,身份證號寫了手機號等等,均屬這種問題。 但該問題特殊性在於:並不能簡單的以刪除來處理,因為成因有可能是人工填寫錯誤,也有可能是前端沒有校驗,還有可能是導入數據時部分或全部存在列沒有對齊的問題,因此要詳細識別問題類型。

格式內容問題是比較細節的問題,但很多分析失誤都是栽在這個坑上,比如跨表關聯或VLOOKUP失敗(多個空格導致工具認為“陳丹奕”和“陳 丹奕”不是一個人)、統計值不全(數字裡摻個字母當然求和時結果有問題)、模型輸出失敗或效果不好(數據對錯列了,把日期和年齡混了,so……)。因此,請各位務必注意這部分清洗工作,尤其是在處理的數據是人工收集而來,或者你確定產品前端校驗設計不太好的時候……

2.4. 第三步:邏輯錯誤清洗

這部分的工作是去掉一些使用簡單邏輯推理就可以直接發現問題的數據,防止分析結果走偏。主要包含以下幾個步驟:

1、去重

有的分析師喜歡把去重放在第一步,但我強烈建議把去重放在格式內容清洗之後,原因已經說過了(多個空格導致工具認為“陳丹奕”和“陳 丹奕”不是一個人,去重失敗)。而且,並不是所有的重複都能這麼簡單的去掉

我曾經做過電話銷售相關的數據分析,發現銷售們為了搶單簡直無所不用其極……舉例,一家公司叫做“ABC管家有限公司“,在銷售A手裡,然後銷售B為了搶這個客戶,在系統裡錄入一個”ABC官家有限公司“。你看,不仔細看你都看不出兩者的區別,而且就算看出來了,你能保證沒有”ABC官家有限公司“這種東西的存在麼……這種時候,要麼去抱RD大腿要求人家給你寫模糊匹配算法,要麼肉眼看吧。

上邊這個還不是最狠的,請看下圖:

你用的系統裡很有可能兩條路都叫八里莊路,敢直接去重不?(附送去重小tips:兩個八里莊路的門牌號範圍不一樣)


當然,如果數據不是人工錄入的,那麼簡單去重即可。

2、去除不合理值

一句話就能說清楚:有人填表時候瞎填,年齡200歲,年收入100000萬(估計是沒看見”萬“字),這種的就要麼刪掉,要麼按缺失值處理。這種值如何發現?提示:可用但不限於箱形圖(Box-plot).

3、修正矛盾內容

有些字段是可以互相驗證的,舉例:身份證號是1101031980XXXXXXXX,然後年齡填18歲,我們雖然理解人家永遠18歲的想法,但得知真實年齡可以給用戶提供更好的服務啊(又瞎扯……)。在這種時候,需要根據字段的數據來源,來判定哪個字段提供的信息更為可靠,去除或重構不可靠的字段。

邏輯錯誤除了以上列舉的情況,還有很多未列舉的情況,在實際操作中要酌情處理。另外,這一步驟在之後的數據分析建模過程中有可能重複,因為即使問題很簡單,也並非所有問題都能夠一次找出,我們能做的是使用工具和方法,儘量減少問題出現的可能性,使分析過程更為高效。

2.5. 第四步:非需求數據清洗

這一步說起來非常簡單:把不要的字段刪了。

但實際操作起來,有很多問題,例如:

把看上去不需要但實際上對業務很重要的字段刪了;

某個字段覺得有用,但又沒想好怎麼用,不知道是否該刪;

一時看走眼,刪錯字段了。

前兩種情況我給的建議是:如果數據量沒有大到不刪字段就沒辦法處理的程度,那麼能不刪的字段儘量不刪。第三種情況,請勤備份數據……

2.6. 第五步:關聯性驗證

如果你的數據有多個來源,那麼有必要進行關聯性驗證。例如,你有汽車的線下購買信息,也有電話客服問卷信息,兩者通過姓名和手機號關聯,那麼要看一下,同一個人線下登記的車輛信息和線上問卷問出來的車輛信息是不是同一輛,如果不是(別笑,業務流程設計不好是有可能出現這種問題的!),那麼需要調整或去除數據。

嚴格意義上來說,這已經脫離數據清洗的範疇了,而且關聯數據變動在數據庫模型中就應該涉及。但我還是希望提醒大家,多個來源的數據整合是非常複雜的工作,一定要注意數據之間的關聯性,儘量在分析過程中不要出現數據之間互相矛盾,而你卻毫無察覺的情況。


3. 數據清洗的方法

生產業務數據常常是不完全的、有噪聲的、不一致的。數據清洗過程包括遺漏數據處理,噪聲數據處理,以及不一致數據處理。

3.1. 遺漏數據處理

假設在分析一個商場銷售數據時,發現有多個記錄中的屬性值為空,如顧客的收入屬性,則對於為空的屬性值,可以採用以下方法進行遺漏數據處理。

3.1.1. 忽略該條記錄

若一條記錄中有屬性值被遺漏了,則將此條記錄排除,尤其是沒有類別屬性值而又要進行分類數據挖掘時。

當然,這種方法並不很有效,尤其是在每個屬性的遺漏值的記錄比例相差較大時。

3.1.2. 手工填補遺漏值

一般這種方法比較耗時,而且對於存在許多遺漏情況的大規模數據集而言,顯然可行性較差。

3.1.3. 利用默認值填補遺漏值

對一個屬性的所有遺漏的值均利用一個事先確定好的值來填補,如都用“OK”來填補。但當一個屬性的遺漏值較多時,若採用這種方法,就可能誤導挖掘進程。

因此這種方法雖然簡單,但並不推薦使用,或使用時需要仔細分析填補後的情況,以儘量避免對最終挖掘結果產生較大誤差。

3.1.4. 利用均值填補遺漏值

計算一個屬性值的平均值,並用此值填補該屬性所有遺漏的值。例如,若顧客的平均收入為 10000 元,則用此值填補“顧客收入”屬性中所有被遺漏的值。

3.1.5. 利用同類別均值填補遺漏值

這種方法尤其適合在進行分類挖掘時使用。

例如,若要對商場顧客按信用風險進行分類挖掘時,就可以用在同一信用風險類別(如良好)下的“顧客收入”屬性的平均值,來填補所有在同一信用風險類別下“顧客收入”屬性的遺漏值。

3.1.6. 利用最可能的值填補遺漏值

可以利用迴歸分析、貝葉斯計算公式或決策樹推斷出該條記錄特定屬性的最大可能的取值。

例如,利用數據集中其他顧客的屬性值,可以構造一個決策樹來預測“顧客收入”屬性的遺漏值。

最後一種方法是一種較常用的方法,與其他方法相比,它最大程度地利用了當前數據所包含的信息來幫助預測所遺漏的數據。

3.2. 噪聲數據處理

噪聲是指被測變量的一個隨機錯誤和變化。下面通過給定一個數值型屬性(如價格)來說明平滑去噪的具體方法。

3.2.1. Bin 方法

Bin 方法通過利用應被平滑數據點的周圍點(近鄰),對一組排序數據進行平滑。排序後的數據被分配到若干桶(稱為 Bins)中。

如圖 1 所示,對 Bin 的劃分方法一般有兩種,一種是等高方法,即每個 Bin 中的元素的個數相等,另一種是等寬方法,即每個 Bin 的取值間距(左右邊界之差)相同。


圖 1 兩種典型 Bin 劃分方法


圖 2 描述了一些 Bin 方法技術。首先,對價格數據進行排序,然後,將其劃分為若干等高度的 Bin,即每個 Bin 包含 3 個數值,最後,既可以利用每個 Bin 的均值進行平滑,也可以利用每個 Bin 的邊界進行平滑。

利用均值進行平滑時,第一個 Bin 中 4、8、15 均用該 Bin 的均值替換,利用邊界進行平滑時,對於給定的 Bin,其最大值與最小值就構成了該 Bin 的邊界,利用每個 Bin 的邊界值(最大值或最小值)可替換該 Bin 中的所有值。

一般來說,每個 Bin 的寬度越寬,其平滑效果越明顯。


圖 2 利用 Bin 方法平滑去噪


3.2.2. 聚類分析方法

通過聚類分析方法可幫助發現異常數據。相似或相鄰近的數據聚合在一起形成了各個聚類集合,而那些位於這些聚類集合之外的數據對象,自然而然就被認為是異常數據。

如圖 3 所示。聚類分析方法的具體內容將在本章教程大數據挖掘中詳細介紹。


圖 3 基於聚類分析方法的異常數據監測


3.2.3. 人機結合檢查方法

通過人機結合檢查方法,可以幫助發現異常數據。

例如,利用基於信息論的方法可幫助識別手寫符號庫中的異常模式,所識別出的異常模式可輸出到一個列表中,然後由人對這一列表中的各異常模式進行檢查,並最終確認無用的模式(真正異常的模式)。

這種人機結合檢查方法比手工方法的手寫符號庫檢查效率要高許多。

3.2.4. 迴歸方法

可以利用擬合函數對數據進行平滑。

例如,藉助線性迴歸方法,包括多變量回歸方法,就可以獲得多個變量之間的擬合關係,從而達到利用一個(或一組)變量值來預測另一個變量取值的目的。

利用迴歸分析方法所獲得的擬合函數,能夠幫助平滑數據及除去其中的噪聲。

許多數據平滑方法,同時也是數據消減方法,例如,以上描述的 Bin 方法可以幫助消減一個屬性中的不同取值,這也就意味著 Bin 方法可以作為基於邏輯挖掘方法的數據消減處理方法。

3.3. 不一致數據處理

現實世界的數據庫常岀現數據記錄內容不一致的問題,其中的一些數據可以利用它們與外部的關聯,手工解決這種問題。

例如,數據錄入錯誤一般可以通過與原稿進行對比來加以糾正。 此外還有一些方法可以幫助糾正使用編碼時所發生的不一致問題。知識工程工具也可以幫助發 現違反數據約束條件的情況。

由於同一屬性在不同數據庫中的取名不規範,常常使得在進行數據集成時,導致不一致情況的發生。

4. 數據清洗規則

一、 規則總覽

數據清洗針對的對象主要有四個——缺失值、異常值、重複值和無用值,針對不同對象的不同形式,採取相應的方法進行處理,從而得到期望的數據。

1.1 非空校核

要求字段為非空的情況下,對該字段數據進行校核。如果數據為空,需要進行相應處理。

1.2 重複校核

多個業務系統中同類數據經過清洗後,在統一保存時,為保證主鍵唯一性,需進行校核工作。

1.3 異常值校核

包括取值錯誤、格式錯誤、邏輯錯誤、數據不一致等,需根據具體情況進行校核及修正。

1.4 無用值校核

目前業務中不需要使用到的、無價值的數據字段,需要進行校核及去除。

二、 具體規則

2.1缺失值清洗

2.1.1確定缺失值範圍:按照缺失比例和字段重要性,分別制定策略:

(a) 重要性高,缺失率低:通過計算進行填充;通過經驗或業務知識估計;

(b) 重要性高,缺失率高:嘗試從其他渠道取數補全;使用其他字段通過計算獲取;

© 重要性低,缺失率低:不做處理或簡單填充;

(d) 重要性低,缺失率高:去掉該字段。

2.1.2填充缺失內容,某些缺失值可以進行填充,方法有以下三種:

(a) 以業務知識或經驗推測填充缺失值;

(b) 從其他業務系統數據中取數補全;

© 以同一指標的計算結果(均值、中位數、眾數等)填充缺失值;

(d) 以不同指標的計算結果填充缺失值。

2.2重複值清洗

重複數據可以進行去重或者進行標記。

2.3 異常值清洗

2.3.1 取值錯誤清洗:

(a) 範圍錯誤:可以通過添加約束的方式過濾掉指定字段數值超出範圍的數據。

(b) 位數錯誤:可以通過其他業務系統數據進行更改。

2.3.2 格式錯誤清洗:格式內容問題主要有以下幾類:

(a) 時間、日期、數值、全半角等顯示格式不一致:在整合多來源數據時也有可能遇到,將其處理成一致的某種格式即可;

(b) 內容中有不該存在的字符:某些內容可能只包括一部分字符,比如身份證號是數字+字母,中國人姓名是漢字。最典型的就是頭、尾、中間的空格,也可能出現姓名中存在數字符號、身份證號中出現漢字等問題。這種情況下,需要以半自動校驗半人工方式來找出可能存在的問題,並去除不需要的字符;

© 內容與該字段應有內容不符:某些字段內容應該是數值,而實際數據中字段的內容卻是字符串。這種情況可以採用類型轉換來處理。

2.3.3邏輯錯誤清洗,主要包含以下幾個步驟:

(a) 去除/替換不合理值;

(b) 修正矛盾內容。

2.4.無用數據清洗

無用數據字段可以直接進行刪除。但在進行該過程的時候,要注意備份原始數據。


分享到:


相關文章: