大數據:數據清洗流程

數據清洗的基本原理是通過分析“髒”數據的產生原因和存在形式,利用數據溯源的思想,從“髒”數據產生的源頭開始分析數據,對數據流經的每一環節進行考察,從中提取數據清洗的規則和策略,基於已有的業務知識對原始數據集應用數據清洗規則和策略來發現“髒”數據,並通過特定的清洗算法來清洗“髒”數據,從而得到滿足預期要求的數據。

大數據:數據清洗流程

1,分析數據並定義清洗規則

首先定義錯誤類型,通過全面詳盡的數據分析來檢測數據中的錯誤或不一致情況,包括手工檢查數據樣本和通過計算機自動分析程序來發現數據集中存在的缺陷。然後,根據數據分析的結果來定義數據清洗規則,並選擇合適的數據清洗算法。

2,搜尋並標識錯誤實例

手工檢測數據集中的屬性錯誤需要花費大量時間和精力,成本高昂且這個過程本身容易出錯。因此,一般傾向於利用高效的檢測方法來自動榴尋數據集中存在的各婁錯誤,佩括數。據佰是否符合字段域、業務規則,或是否存在重複記錄等。常用的檢測方法主要有:基於統計的方法、 聚類方法和關聯規則方法。消除重複記錄首先要檢測出標識同一個實體的重複記錄,即匹配與合併過程。檢測重複記錄的算法主要有:字段匹配算法、Smith-Waterman算法和Cosine相似度函數。

3,糾正發現的錯誤

在原始數據集上執行預定義並已得到驗證的數據清洗轉換規則,修正檢測到的錯誤數據,或處理冗餘和不一致的數據。需要注意,當在源數據上進行數據清洗時,應備份源數據,以防需要撤銷清洗操作。根據“髒”數據存在的形式,執行一系列的數據清除和數據格式轉換步驟來解決模式層和實例層的數據質量問題。為了使數據匹配和合並變得方便,應該將數據屬性值轉換成統一的格式。

4,“乾淨”數據迴流

當完成數據清洗後,應用文檔記錄錯誤實例和錯誤類型,並修改數據錄入程序以減少可能的錯誤。同時,用“乾淨”的數據替換原始數據集中的“髒”數據,以便提高信息系統的數據質量,還可避免再次抽取數據後進行重複的清洗工作。,

5,數據清洗的評判

數據清洗執行完畢後,有必要對數據清洗的效果進行評價。數據清洗的評價標準主要包括兩個方面:數據的可信性和數據的可用性。數據可信性包括數據精確性、完整性、一致性、有效性和唯一性等指標。精確性描述數據是否與其對應的客觀實體的特徵相一致;完整性描述數據是否存在缺失記錄或缺失宇段:一致性描述同一實體的同一屬性的值在不同的系統是否一致:有效性描述數據是否滿足用戶定義的條件或在一定的閡值範圍內;唯一性描述數據是否存在重複記錄。

數據的可用性考察指標主要包括時間性和穩定性。時間性描述數據據還是歷史數據;穩定性描述數據是否是穩定的,是否在其有效期內。

需要指出的是,數據清洗是一項十分繁重的工作,數據清洗在提高數據質量的同時要付出一定的代價,包括投入的時間、人力和物力成本。通常情況下,大數據集的數據清洗是一個系統性的工作,需要多方配合以及大量人員的參與,還需要多種資源的支持。


分享到:


相關文章: