三分钟带你了解大数据与数据分析(上)

今天,我来给大家介绍一下大数据和大数据分析的基本知识,上篇我们来讲大数据,下篇我们来讲大数据分析。

首先,我们来了解一下大数据基本概念。

大数据是一个较为抽象的新兴事物,因而目前尚未有明确统一的定义。不同的定义对大数据的特点有不同的偏向。对于大数据定义, 要达成共识非常困难。一种逻辑上的选择是接受所有的大数据定义, 其中每种定义反映了大数据的特定方面。

IDC在对大数据作出的定义为[15]:大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据, 并且是高速、实时数据流;或者是从小数据开始, 但数据每年会增长60%以上。这个定义给出了量化标准, 但只强调数据量大, 种类多, 增长快等数据本身的特征。

当前, 较为统一的认识是大数据有四个基本特征:数据规模大 (Volume) , 数据种类多 (Variety) , 数据要求处理速度快 (Velocity) , 数据价值密度低 (Value) , 即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同, 后者只强调数据的量, 而大数据不仅用来描述大量的数据, 还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理, 最终获得有价值信息的能力。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

三分钟带你了解大数据与数据分析(上)


接下来,我们来了解一下大数据的特点。

(一)数据量大

大数据聚合在一起的数据量是非常大的, 根据IDC的定义至少要有超过100TB的可供分析的数据, 数据量大是大数据的基本属性。

(二) 数据类型多样

数据类型繁多, 复杂多变是大数据的重要特性。以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。结构化数据是将事物向便于人类和计算机存储、处理、查询的方向抽象的结果,结构化在抽象的过程中, 忽略一些在特定的应用下可以不考虑的细节, 抽取了有用的信息。

(三) 数据处理速度快

要求数据的快速处理, 是大数据区别于传统海量数据处理的重要特性之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发展普及, 数据的产生、发布越来越容易,产生数据的途径增多, 个人甚至成为了数据产生的主体之一, 数据呈爆炸的形式快速增长, 新数据不断涌现,新数据不断涌现, 快速增长的数据量要求数据处理的速度也要相应的提升, 才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势, 反而成了快速解决问题的负担。同时, 数据不是静止不动的, 而是在互联网络中不断流动, 且通常这样的数据的价值是随着时间的推移而迅速降低的,如果数据尚未得到有效的处理, 就失去了价值, 大量的数据就没有意义。对不断激增的海量数据的实时处理要求, 是大数据与传统海量数据处理技术的关键差别之一。

(四)数据价值密度低

数据价值密度低是大数据关注的非结构化数据的重要属性。传统的结构化数据, 依据特定的应用, 对事物进行了相应的抽象, 每一条数据都包含该应用需要考量的信息, 而大数据为了获取事物的全部细节, 不对事物进行抽象、归纳等处理, 直接采用原始的数据, 保留了数据的原貌, 且通常不对数据进行采样,直接采用全体数据, 由于减少了采样和抽象, 呈现所有数据和全部细节信息, 可以分析更多的信息, 但也引入了大量没有意义的信息,甚至是错误的信息, 因此相对于特定的应用, 大数据关注的非结构化数据的价值密度偏低。但是大数据的数据密度低是指相对于特定的应用, 有效的信息相对于数据整体是偏少的, 信息有效与否也是相对的, 对于某些应用是无效的信息对于另外一些应用则成为最关键的信息, 数据的价值也是相对的, 有时一条微不足道的细节数据可能造成巨大的影响。

(五)数据真实性

最后,我们来了解一下大数据的处理步骤

与传统海量数据的处理流程相类似, 大数据的处理也包括获取与特定的应用相关的有用数据, 并将数据聚合成便于存储、分析、查询的形式;分析数据的相关性, 得出相关属性;采用合适的方式将数据分析的结果展示出来等过程。

三分钟带你了解大数据与数据分析(上)


1)采集

大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2)导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3)统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大。

4)挖掘与前面统计和分析过程

不同的是,大数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

5)可视化

将原始数据流以图像形式表示,更直观地展现数据本身的属性以及特点,帮助人们理解数据,同时找出包含在海量数据中的规律或者信息。

三分钟带你了解大数据与数据分析(上)



分享到:


相關文章: