让企业更具有竞争力的法宝 -- 数据仓库

摘要: 从信息系统本质来说,数据仓库与数据挖掘没有直接关系,但是数据仓库却是数据处理的核心组成部分,为数据挖掘工作提供坚实的数据基础。

01 前言

从信息系统本质来说,数据仓库与数据挖掘没有直接关系,但是数据仓库却是数据处理的核心组成部分,为数据挖掘工作提供坚实的数据基础,在2018年5月21发布的《银行业金融机构数据治理指引》中明确要求,银行业金融机构应当系统性的收集、整理、跟踪和分析各类数据,建立数据仓库、风险数据集市和数据管理系统,以获取、清洗、转换和存储数据,并建立数据质量控制政策和程序,确保数据的完整性、全面性、准确性和一致性,满足资本计量和内部资本充足评估等工作的需要。

02 数据预处理

在实际的业务运营过程中,各个银行业务系统存储的数据可能存在不同的错误、缺失和不一致等问题,这使得数据挖掘和分析系统不能直接进行数据的导入和使用,需要提供一个数据预处理环节,将这些可能存在问题的数据进行统一整理和标准化输出,以确保分析系统得到的数据是正确、完整和一致的。提前进行数据预处理,不仅可以对数据缺陷进行处理,保证数据质量还可以保证后续数据深度加工的性能以及精度,让处理结果不会因为数据原始的缺陷而走样,从而大大提高数据挖掘和分析结果的有效性。数据预处理是所有数据应用中的重要步骤,越早进行数据预处理,获得的好处就越明显,出现不必要错误的可能性也就越低。

目前比较常用的数据预处理技术主要有以下几种:

(1)数据清理。数据清理的目的是解决数据的错误和不一致问题,其最终目的是将数据格式标准化、异常数据的发现和处理、数据纠错、重复数据的发生和清除等。

在数据清理阶段,需要处理包括遗漏值以及噪声数据在内的异常情况,通常在处理遗漏值会使用包括忽略缺陷数据项、人工填写遗漏数据值、使用统一常量填充遗漏数据值、使用属性的平均值填充遗漏数据值、使用分组之后的样本属性平均值填充遗漏数据值和使用最可能的值填充遗漏数据值的方法来修复缺失和遗漏的数据,但这些方法或多或少都会带来数据失真的情况,相对而言,使用最可能的值充填遗漏数据值是使用最多的遗漏值填充方法,因为它可以参考其它属性的值,从多个维度对猜测值进行约束,从而有更大的概率获得与真实值接近也最合理的猜测值。

噪声数据是数据收集过程中产生的不可控的随机错误,是不可避免的,所以需要考虑对收集到的数据进行平滑操作,去掉或减少噪声数据对分析结果带来的影响,常用的数据平滑技术包括分箱操作、聚类操作、计算机与人工检查相结合的操作以及回归操作等。

(2)数据集成。数据集成的目的是整合来自多个数据源的数据,数据集成将多个数据源中的数据结合,并存放在同一个数据存储环境中,有助于减少数据集的冗余和不一致,提升后续数据处理的准确性和速度。

(3)数据归约。数据归约的目的是得到数据更加精简的表达。在内容大幅度压缩的同时,所表达的内容不能出现走样,最终的分析结果也应该保持不变。数据归约通常将数据按语义层次结构进行合并,语义层次结构定义了数据属性值之间的语义关系,因此当归约化使数据个数大量减少时,数据之间的关系可以保持不变。数据归约操作之后,数据量相比原始数据会有大量减少,从而能够大幅提升后续数据处理的性能和效率。数据归约的策略主要有数据立方聚集、维归约、数据压缩和数值压缩。

(4)数据变换。数据变换是对数据进行规范化、离散化和概念分层而进行的操作,其思路主要是找到数据的特征表示,用维变换转换方法减少有效变量的数目或找到数据的不变式,从而变成适合于后续处理的形式。数据变换的主要技术包括规格化、归约、变换、旋转、投影等操作。

03 数据治理

随着数据量的增大,对数据的处理不能仅仅停留在清理层面,而要从更高的层面来做数据质量控制,这就是数据治理。数据治理是从信息系统的级别,全面把握数据质量的体系,需要来自高层的授权和信息部门的合作,也需要信息部门和业务部门的综合监管,最终目标是从宏观上把握和提升数据的质量。数据治理需要从制度、标准、监控、流程等几个方面提升银行的数据信息管理能力,解决目前所面临的数据标准问题、元数据管理问题、数据质量问题和数据服务问题。

04 ETL工具

ETL意为抽取(Extract)、转换(Transform)、加载(Load),为数据预处理提供标准化的流程,是当前数据仓库系统的基础,数据仓库中的数据来自源业务系统,而ETL的主要功能是完成对源业务系统数据的抽取、清洗、转换和加工,生成数据仓库中的基础层和应用层数据。

05 数据仓库的基本概念

数据仓库的概念是20世纪80年代,为了解决企业的数据集成问题而提出的,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理中的决策制定。

建立数据仓库的目的主要是将企业系统运营过程中产生的数据存储起来并加以得用,数据仓库优越的特性对于数据密集型行业,例如银行、证券、保险、电信等,有着莫大的吸引力,在发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用首先在这些行业得到了推广和普及。

数据仓库有面向主题、集成、相对稳定和反映历史变化的特点,他与数据库最大差别在于,数据仓库以数据分析、决策支持为目的来组织存储数据,而数据库的主要目的则是为生产运营系统保存数据。

06 OLAP

OLAP(On-Line Analytical Processing)即联机分析处理,是使用多维信息,针对特定的联机数据进行访问、分析和验证的软件技术。OLAP由“关系数据库之父”埃德加·弗兰克·科德在1993年正式提出。科德认识到,无论是简单的SQL数据库查询,还是OLTP,都无法满足当时用户对于数据查询和分析的需求,越来越多的用户需要更为复杂、动态的数据查询功能,不仅要对历史数据进行自由的检索,而且要从不同的数据源中进行集成,从而可以自主地从不同的角度观察数据。科德认为,关系数据库从根本上无法提供强大的数据合成及多维分析能力,这些功能应该由前端工具来完成的。这里的前端工具即为OLAP类产品。

OLAP通过在线联机,为用户请求的快速交互式操作提供了很好的使用体验,除此之外,它还有很多重要的特点和处理特性:

(1)快速性。一般来说,系统能在5秒内对用户的大部分分析要求做出反应。

(2)可分析性。对于逻辑分析和统计分析这类常见分析,OLAP系统都能处理,而且这些操作的逻辑性对决策者来说都是可理解的。

(3)多维性。多维性是OLAP的关键属性,OLAP强大的处理能力正是来自多维数据的多维视图分析,通过多维视图在用户面前的展现,提供多维分析操作功能。

(4)信息性。OLAP的设计和实现正是为了迎合足够大的信息量需求。从设计角度就确定了OLAP系统必须及时获得信息,并加以管理,进而做出及时响应。

07 常用数据仓库产品及OLAP工具

目前市场上各种数据仓库产品及其解决方案繁多,其定位和特色各有不同,一般要根据自身的项目需求和技术基础进行选择。

在数据仓库产品方面主要有IBM提供的组合产品方案和Oracle的整套解决方案。在IBM提供的方案中,用户可以自由搭配其它厂商的产品,比如前端数据展现部分,既可以是IBM公司的Query Management Facility,也可以是Business Objects公司的BO,而统计分析则可以用SAS公司的SAS系统完成。而Oracle公司的一整套解决方案就包括了数据库平台、开发工具和应用系统,它能够提供一系列的数据仓库工具集和服务。

在OLAP工具方面,相关的产品有IBM DB2 OLAP Server、Oracle Express等,随着OLAP的不断发展,其适用范围也在不断扩大,如市场和销售分析、财务报告与整合、管理报告、利益率分析等。更为普适的OLAP工具也正在把联机分析处理推进到联机分析挖掘领域,可以将联机分析处理与多维数据库的知识发现进行集成,从而把超立方体计算与传统数据挖掘算法结合起来,通过联机数据挖掘为用户的数据分析提供灵活性。