初探数据质量分析


写在前面:在进行数据摸底的时候,我们最后需要出具一份数据质量分析报告,检测出数据存在的质量问题。如何快速检查出数据存在的质量问题呢?今天小编就给大家提供一个好用数据质量分析的方法,这次分析的样本数据是人员基本信息。


第一步:数据完整性

data = pandas.read_excel(r'C:\Users\Tomtat\Desktop\jzgxx.xlsx') # 读取文件

null =data.isnull().sum() # 统计字段为空数量

null_col = null[null>0] # 取出数据缺失字段信息


初探数据质量分析

我们这样就能够很直接、清晰的看到数据的一个缺失情况了。


第二步:数据唯一性


# 数据完整性

detail = data.describe(include=['object'])


初探数据质量分析

关于数据唯一性的展示,通过分析数据输出至excel 我们可以明显的看出 数据的非空值数、唯一值数、最高频数以及对应的出现频率。

从图中圈出部分我们很容易就看出有三个人重名,还有两个人身份证号重复,如此可以更快的帮我们定位数据问题。


分享到:


相關文章: