写在前面:在进行数据摸底的时候,我们最后需要出具一份数据质量分析报告,检测出数据存在的质量问题。如何快速检查出数据存在的质量问题呢?今天小编就给大家提供一个好用数据质量分析的方法,这次分析的样本数据是人员基本信息。
第一步:数据完整性
data = pandas.read_excel(r'C:\Users\Tomtat\Desktop\jzgxx.xlsx') # 读取文件
null =data.isnull().sum() # 统计字段为空数量
null_col = null[null>0] # 取出数据缺失字段信息
我们这样就能够很直接、清晰的看到数据的一个缺失情况了。
第二步:数据唯一性
# 数据完整性
detail = data.describe(include=['object'])
关于数据唯一性的展示,通过分析数据输出至excel 我们可以明显的看出 数据的非空值数、唯一值数、最高频数以及对应的出现频率。
从图中圈出部分我们很容易就看出有三个人重名,还有两个人身份证号重复,如此可以更快的帮我们定位数据问题。