大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

我们聊起“大数据”和“云计算”时,常常把这两个名词概念混淆,觉得就是一个词。又或者知道这两者是有区别的,却又不知从何说起。今天,我和大家一起聊一聊“大数据”和“云计算”的联系与区别。

一、大数据

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

大数据的定义

1、大数据的定义

著名的麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

研究机构Gartner给出的定义是“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

大数据三大层面来了解

2、三个层面来了解大数据:

其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:

(1)第一层面:理论

理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

(2)第二层面:技术

技术是大数据价值体现的手段和前进的基石。大数据从采集、处理、存储到形成结果的整个过程,都伴随着云计算、分布式处理技术、存储技术和感知技术的发展。(这里我们下文再系统说)

(3)第三层面:实践

从总统竞选到奥斯卡颁奖、从web安全到灾难预测都离不开大数据的参与,大数据在企业商业智能、公共服务和市场营销三个领域拥有巨大的应用潜力和商机。正如那句俗语所言:当你手上有一把锤子的时候,看所有的东西都是钉子。”

3、大数据的应用领域

综合来看,未来几年大数据在商业智能、政府服务和市场营销三个领域的应用非常值得看好,大多数大数据案例和预算将发生在这三个领域。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

商业智能处理流程

(1)商业智能

商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

过去几十年,分析师们都依赖来自Hyperion、Microstrategy和Cognos的BI产品分析海量数据并生成报告。数据仓库和BI工具能够很好地回答类似这样的问题:“某某人本季度的销售业绩是多少?”(基于结构化数据),但如果涉及决策和规划方面的问题,由于不能快速处理非结构化数据,传统的BI会非常吃力和昂贵。 大多数传统BI工具都受到以下两个方面的局限:

首先,它们都是“预设-抓取”工具,由分析师预先确定收集什么数据用于分析。

其次,它们都专注于报告“已知的未知”(Known unknowns),也就是我们知道问题是什么,然后去找答案。(而大数据会给出一些未知的未知,也就是你没有想到的一些问题的结果) 传统BI工具主要用于企业运营,侧重于成本控制和计划执行报告。

而大数据技术最主要的功能/应用是ETL(Extract、Transform、Load)。将近80%的Hadoop应用都与ETL有关,例如在导入Vertica这样的分析数据库之前对日志文件或传感器数据的处理。

今天计算和存储硬件变得非常便宜,配合大量的开源大数据工具,人们可以非常“奢侈”地先抓取大量数据再考虑分析命题。可以说,低廉的计算资源正在改变我们使用数据的方式。 此外,处理性能的大幅提高(例如内存计算)使得实时互动分析更加容易实现,而“实时”和“预测”将BI带到了一个新的境界——未知的未知。这也是大数据分析与传统BI之间最大的区别。 未来几年,随着企业间的兼并和新产品的不断推出,传统的BI工具将与大数据分析并存。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

公共服务关系

(2)公共服务

大数据另外一个重大的应用领域是社会和政府。如今,数据挖掘已经能够预测疾病暴发、理解交通模型并改善教育。

今天,城市正面临预算超支、基础设施难题以及从农村和郊区涌入的大量人口。这些都是非常紧迫的问题,而城市,也正是大数据计划的绝佳实验室。以纽约这样的大都市为例,政府公共数据公开化、以及市民生活的高度数字化(购物、交通、医疗等)等都是大数据分析的理想对象。

客观的市政数据,是消除争端,维系社会稳定的最佳纽带。当然,前提是让公民能够访问这些数据同时,保护好公民的隐私性和数据的安全性。苹果的Siri和谷歌的Google Now都具备成为个人化助理的潜力。当然,我们还需要更多的产品和技术让数据分析结果更容易被公众理解和接受(数据可视化)。此外,IBM的Watson以及Wolfram Alpha这样的人工智能技术在实现与用户的互动上可作参考。

伴随着各国政务的数字化进程,以及政务数据的透明化,公民将能准确了解政府的运作效率。这是不可逆转的历史潮流,同时也是大数据最具潜力的应用领域之一。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

市场营销

(3)市场营销

大数据的第三大应用领域是市场营销。具体来说,有利于促进消费者与企业之间的关系。(卖得更多、更快、更有效率) 今天,最大的数据系统是web分析、广告优化等。今天的数字化营销与传统营销最大的区别就是个性化和精准定位。

如今,企业与客户之间的接触点也发生了翻天覆地的变化,从过去的电话和邮件地址,发展到网页、社交媒体账户等等。在这些五花八门的渠道里跟踪客户,粉丝和流量变现的年代,每一次阅读、转发对企业来说,都是一种推广行为,间接也可能促成企业产品交易。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

云计算

二、云计算


1、云计算的定义

美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

云计算特点

2、云计算特点

云计算是通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。

好比是从古老的单台发电机模式转向了电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。

被普遍接受的云计算特点如下:

(1) 超大规模

“云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。

(2) 虚拟化

云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。

(3) 高可靠性

“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。

(4) 通用性

云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。

(5) 高可扩展性

“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

(6) 按需服务

“云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。

(7) 极其廉价

由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。

云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。

(8) 潜在的危险性

云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。对于信息社会而言,“信息”是至关重要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要前提。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

大数据VS云计算

三、大数据和云计算的联系与区别

1、从定义上看

从二者的定义范围来看,大数据要比云计算更加广泛。大数据这一概念从2011年诞生以来,中国从积极推动两化融合到深度融合,再者,各地纷纷建设大数据产业园可以看出,我国极其看重此次大数据发展契机。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据这个强大的数据库拥有三层架构体系,包括数据存储、处理与分析。简而言之,数据需要通过存储层先存储下来,之后根据要求建立数据模型体系,进行分析产生相应价值。这其中缺少不了云计算所提供的中间数据处理层强大的并行计算和分布式计算能力。

简单来说:云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。虽然从这个解释来看也不是完全贴切,但是却可以帮助对这两个名字不太明白的人很快理解其区别。当然,如果解释更形象一点的话,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化后在进行分配使用。

可以说,大数据相当于海量数据的“数据库”,通观大数据领域的发展我们也可以看出,当前的大数据发展一直在向着近似于传统数据库体验的方向发展,一句话就是,传统数据库给大数据的发展提供了足够大的空间。

大数据的总体架构包括三层:数据存储,数据处理和数据分析。数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三者相互配合,这让大数据产生最终价值。

2、从技术上看

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。

(1)分布式架构

大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。分布式架构是分布式计算技术的应用和工具,目前成熟的技术包括J2EE, CORBA和.NET(DCOM),对于分布式计算技术的架构,不能绝对地说哪一个更好,只能说哪一个更合适。针对不同的软件项目需求,具体分析才是明智的选择。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

云计算在互联网领域应用系统的构建:客户群体是不确定的、系统规模不确定、系统投资不固定、业务应用有很清晰的并行分割特征、数据仓库系统的构建、数据仓库规模可估算、数据仓库的系统投资与业务分析的价值和回报相关、商业智能应用属于整体应用、Saas模式构建数据仓库系统。

(2)Hadoop-分布式文件系统

大数据管理,分布式进行文件系统,如Hadoop、Mapreduce数据分割与访问执行;

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

同时SQL支持,以Hive+HADOOP为代表的SQL界面支持,在大数据技术上用云计算构建下一代数据仓库成为热门话题。

3、从系统需求来看

从系统需求来看,大数据的架构对系统提出了新的挑战:

1)芯片集成度更高。随着集成度更高的最大规模集成电路(SLSI)技术的出现,使计算机朝着微型化和巨型化两个方向发展。要求一个标准机箱限度完成特定任务;

2配置更合理、速度更快。存储、控制器、I/O通道、内存、CPU、网络均衡设计,建立数据仓库,满足客户对高密度机架式服务器的需求针对数据仓库访问更优设计,比传统类似平台高出一个数量级以上;

3整体能耗更低。面对同等计算任务,可以提高运算性能,同时占地面积保持不变的情况下,减少能源消耗和空间需求;

4系统更加稳定可靠。能够消除各种单点故障环节,统一部件/器件的品质和标准;

5管理维护费用低。数据仓库可以实现集中管理,这样维护费用可以控制在一个可控范围,从而管理维护费用降到最低。

6可规划和预见的系统扩容、升级路线图对系统扩容/升级路线可以做出阶段性的预测,实时可规划,从而更好的运营整个系统。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

云计算环境作为大数据处理平台

4、云计算环境作为大数据处理平台

1云计算环境中基本计算单元的分化

企业云计算平台上虽然有多个并行计算的CPU,但并没有创造出具有超强数据处理能力的超级CPU,因此云计算平台需要具有并行运算能力的软件系统。同时,当所有用户的数据全部放在云端时,虽然存储容量可以很方便地扩充,但面对大量用户同时发起的海量数据处理请求,简单的数据处理逻辑已经无法满足需要。所以大数据涵盖的数据范围和其所具有的数据运行能力更加优化。

大数据和云计算的关系:大数据和云计算联系与区别、未来发展趋势

大数据和云计算的未来趋势

四、大数据和云计算的未来趋势

整体来看,未来的趋势是云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力将越来越明显。市场也会对大数据和云计算提出更高的技术需求,迫使大数据和云计算实现技术上的改进和创新和应对市场需求,所以未来他们应该始终会是相辅相成、不断发展的状态。


分享到:


相關文章: