數據評估質量?評估標準四個方面完整性、共同性、精確性、及時性

數據質量是保證數據應用的基本,它的評估標準首要包括四個方面,完整性、共同性、精確性、及時性。評估數據是否抵達預期設定的質量要求,就可以通過這四個方面來進行判別。

數據評估質量?評估標準四個方面完整性、共同性、精確性、及時性

完整性

完整性指的是數據信息是否存在缺失的情況,數據缺失的情況可能是整個數據記載缺失,也可能是數據中某個字段信息的記載缺失。不完整的數據所能學習的價值就會大大下降,也是數據質量最為基本的一項評估標準。

數據質量的完整性比較簡單去評估,一般我們可以通過數據計算中的記載值和僅有值進行評估。例如,網站日誌日訪問量就是一個記載值,往常的日訪問量在 1000 左右,突然某一天降到100了,需求查看一下數據是否存在缺失了。再例如,網站計算地域分佈情況的每一個區域名就是一個僅有值,我國包括了32個省和直轄 市,如果計算得到的僅有值小於32,則可以判別數據有可能存在缺失。

數據評估質量?評估標準四個方面完整性、共同性、精確性、及時性

共同性

共同性是指數據是否遵從了共同的標準,數據集結是否堅持了共同的格式。

數據質量的共同性首要體現在數據記載的標準和數據是否符合邏輯。標準指的是,一項數據存在它特定的格式,例如手機號碼必定是13位的數字,IP地址必定 是由 4個0到255間的數字加上”.”組成的。邏輯指的是,多項數據間存在著固定的邏輯關係,例如PV必定是大於等於UV的,跳出率必定是在0到1之間的。

一般的數據都有著標準的編碼規矩,關於數據記載的共同性查驗是較為簡單的,只需符合標準編碼規矩即可,例如區域類的標準編碼格式為“北京”而不是“北京市”,我們只需將相應的僅有值映射到標準的僅有值上就可以了。

數據評估質量?評估標準四個方面完整性、共同性、精確性、及時性

精確性

精確性是指數據記載的信息是否存在失常或差錯。和共同性不一樣,存在精確性問題的數據不只是只是規矩上的不共同。最為常見的數據精確性差錯就如亂碼。其次,失常的大或許小的數據也是不符合條件的數據。

數據質量的精確性可能存在於單個記載,也可能存在於整個數據集,例如數量級記載差錯。這類差錯則可以運用最大值和最小值的計算量去審理。

一般數據都符合正態分佈的規矩,如果一些佔比少的數據存在問題,則可以通過比較其他數量少的數據比例,來做出判別。

當然如果計算的數據失常並不明顯,但仍然存在著差錯,這類值的查看是最為困難的,需求通過凌亂的計算分析對比找到蛛絲馬跡,這兒可以憑仗一些數據分析東西,那麼具體的數據修改方法就不在這兒介紹了。

數據評估質量?評估標準四個方面完整性、共同性、精確性、及時性

及時性

及時性是指數據從發作到可以查看的時間間隔,也叫數據的延時時長。及時性關於數據分析本身要求並不高,但如果數據分析週期加上數據建立的時間過長,就可能導致分析得出的結論失去了學習意義。

數據評估質量?評估標準四個方面完整性、共同性、精確性、及時性


分享到:


相關文章: