大数据预处理七步(一):数据预处理

一、大数据预处理的几个步骤

1.数据预处理

2.数据清洗

3.数据集成

4.数据归约

5.数据变换

6.数据离散化

7.大数据预处理

二、数据预处理

现实中的数据大多是“脏”数据:

①不完整 缺少属性值或仅仅包含聚集数据

②含噪声 包含错误或存在偏离期望的离群值 比如:salary=“-10”,明显是错误数据

③不一致 用于商品分类的部门编码存在差异 比如age=“42”Birthday=“03/07/1997”

而我们在使用数据过程中对数据有如下要求:

一致性、准确性、完整性、时效性、可信性、可解释性

由于获得的数据规模太过庞大,数据不完整、重复、杂乱,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。

大数据预处理七步(一):数据预处理

图1


分享到:


相關文章: