别看数据湖由来已久,数据价值评估仍然难倒了很多企业,快学学吧

别看数据湖由来已久,数据价值评估仍然难倒了很多企业,快学学吧

运用数据分析洞察业务价值,EDW是业界公认的技术方案。

比尔·恩门(Bill Inmon)【是数据仓库之父、数据仓库概念的创始人】,他的理论依据关键字眼儿是:面向主题的、集成的、自顶向下的等等。他的思想与见识在所有重量级的计算机协会、许多产业会议、技术研讨会上,都博得了无比的敬重。他写过650多篇文章,大多发布在世界最知名的IT刊物里。


1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库。

3、数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

……

所以,自1990年Bill Inmon提出了数据仓库概念以来,数据仓库已从早期的探索走向实用阶段,进入了一个快速发展时期。在此期间,全球经济急速发展,使企业对信息的需求大大加剧,这是数据仓库长期稳健发展的根本原因;

别看数据湖由来已久,数据价值评估仍然难倒了很多企业,快学学吧

而另外,移动互联网和大数据的蓬勃发展,催生了企业对数据湖的建设需求。

数据湖概念是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。 数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服务。这样的数据仓库,已经具有了数据湖的部分功能。

引用:

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。

基于前面讲的这种时代变革,从EDW到Data Lake实际上是一个大转折和大跳跃。但这种跳跃也非常巧妙,我们看到Data Lake至今仍然是比较年轻的概念,很多技术和能力支撑都是新领域新挑战,所以基本上都要从头学起,甚至需要与EDW的成熟性相提并论或者巧妙结合,这样才能发挥两大领域的各自优势。

别看数据湖由来已久,数据价值评估仍然难倒了很多企业,快学学吧

所以,有些人就问了——在混搭架构下(EDW+Data Lake模式下),如何考量各平台的关键指标?

这是一个非常好的问题,什么样的平台承载什么样的能力,这主要依赖于业务,从业务到技术,最后甚至影响各自的数据流向。

在EDW域:

如何通过优化不断提升SQL性能?

汇总数据该如何整合,以支撑核心业务?

系统是否具备并发查询和高级分析功能?

第三方工具集成能力、应用组件是否成熟?

系统如何横向扩展?混合/动态负载支撑?

系统灾难的恢复方法如何有效支撑?

……

在Data Lake域:

如何接入多个系统的不同数据源?

海量历史数据是否保留并存档?

是否具备低廉的存储成本?

如何支撑高时效业务?数据如何连续加载?

系统是否具备数据管理和安全的能力?

机器学习/算法库的成熟度?

……

别看数据湖由来已久,数据价值评估仍然难倒了很多企业,快学学吧

我想我们可以参考Gartner的“The LDW Solution Path and Its Three Streams”这篇文章。其内容有介绍:在对解决方案进行包装时,下述三个能力通常是并行执行的路径,整个过程通过不断迭代达到系统的能力扩展。

Stream 1(数据仓库流):

此流归属于平台能力。构建高性能数据仓库,不仅承载数据模型、自动化测试和报表应用,更要提供的并发混合负载的分析支撑;DW是数据应用与开发的出口,主要体现其业务价值;

所以DW是评估数据价值的“手段”。

Stream 2(灵敏开发和自服务流):

此流归属于使用能力。灵敏的架构促进自服务工作协同,面向最终用户提供灵敏开发和自服务能力。AGILE就像一个数据加工厂。它依赖于底层LAKE的基础数据资源,同时为上层DW提供能力输出;

所以,AGILE是评估数据价值的“载体”。

Stream 3(数据湖流):

此流归属于平台能力。通过构建超大规模非结构化处理系统,支撑企业级ETL和数据沙箱;LAKE是大数据资源的加工入口,主要体现其数据承载力;

所以,仅依赖于LAKE很难评估数据的价值。

介绍到这里,我想您也看明白了,Data Lake就算再普遍,也仍然需要上层业务的导向;而业务实现虽然依赖于EDW,但是中间的处理过程却依赖于开发和服务。

重点就是你——AGILE能力。这里有架构的创建、有自服务的工作环境、有数据探索和集成,还有一切面向用户的敏捷部署方案。

数据的价值评估不仅要看数据访问频度,还要看为了支撑业务,数据架构和数据流转是如何作用域整个处理环节的。因为迄今为止,众人们都认为低价值密度数据要在Data Lake中贯穿(如大数据存储、企业ETL、数据探索等),高价值密度数据要在EDW中贯穿(指标、报表、客户画像等),所以数据的价值评估就离不开中间的承载和处理环节。

AGILE其实也暴露出另一个问题:他依赖于人,依赖于设计人员、开发人员、运维人员等,大数据的后十年就是依赖于人的,人力成本才是核心生产力。


分析世界讲方案——每天早7点,为您带来精彩的一页。

感谢阅读、感谢共鸣。


分享到:


相關文章: