个人对数据质量的一些看法

今天跟一位之前的同事沟通,发现现在好多企业越来越重视数据质量,数据治理相关的东西了,所以便想发表下自己对于数据质量的理解,不够权威,还请大家多多指教,发表自己的见解,大家一起沟通,共同学习,共同进步。

一.数据质量产生的原因


个人对数据质量的一些看法

二.如何解决数据质量的问题

通过分析上面的图我们可以从三个方面去解决数据质量的问题

首先要确保源系统数据的质量,要及时跟源系统设计人员及时沟通,数据结构发生变化后要及时沟通与反馈,尽量使得源头的数据就是正确的,但这是不切实际的,源系统多多少少都会有一些遗漏的数据质量问题

其次,就需要在数据仓库的设计过程中尽量避免数据质量的问题,

1.制定数据规范,包括编码规范,表命名规范,列规范,数据类型的规范等,设计良好的元数据管理系统。

2.梳理指标体系,设计好分层,搭建良好的数据仓库,统一指标口径,避免出现同一指标出现的不同的结果。

3.构建一套高效、健壮的ETL程序去保证数据清洗、转换后数据的正确性和一致性

例如对日期格式的处理,源系统有2013-30-08 2013\\8\\30 20130830 2013-08-40 等多种不规范格式要考虑全面,统一清洗转换成一致性数据2013-08-30,同时对错误数据进行剔除,对单位进行统一,排除冗余脏数据等。

4.设置相关告警,保证数据的及时产出,或者报错后能够有相关负责人及时处理。

最终,是要对产出的结果数据做出相关监控

1.对数据量监控,是否是某一天的数据量为0,此时就要注意了,查看为什么没有产出数据.

2.对null值监控。

3.对某些重要的指标进行监控,设置阈值范围,看数据是否骤增或者骤降,数据量是否波动过大。

4.也可以手动设置一些有关于符合业务逻辑方面的告警,例如当账户状态为‘逾期’时,当前逾期期数不能为0。

个人对数据质量的一些看法


三.数据质量中心(DQC)

现在有好多企业已经有了自己的数据质量监控平台

DQC(数据质量中心):监控数据质量并告警,保证数据产出不含“脏数据”,

DQC数据监控规则有强规则和弱规则之分,强规则会阻断任务的执行(将任务置为失败状态,其下游任务将不会被执行);

而弱规则只告警而不会阻断任务的执行

常见的DQC监控规则有:主键监控,表数据量及波动监控,重要字段的非空监控,重要枚举字段的离散值监控,指标值波动监控,业务规则监控等。


数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。所以我们做数据相关工作人员必须要对数据质量的问题重视起来,让数据真正有价值。

个人对数据质量的一些看法


分享到:


相關文章: