大数据知识普及【1】


大数据知识普及【1】

一、大数据的本质和内涵

大数据(Big Data),又称巨量资料或海量资料,通常是指巨大而复杂的数据集合。大数据超出传统工具或单台计算机的处理能力,因此无法用常规软件对数据进行采集、存储、挖掘、分析及应用管理,而是必须用新的数据处理模式才能具有更强的洞察力、决策力和优化能力,大数据处理技术包括数据接入、数据持久存储、数据计算和分析、数据展示(可视化)等等。

世界的本质是数据,大数据仍然是数据,只不过是“大”一点的数据。在大数据时代,数据量空前增长,互联网、移动互联网、物联网、成千上万的传感器、穿戴设备、GPS等,都在推动大数据处理技术快速发展。随着大数据的产生,原本的数据世界也被划分为两个时代,即大数据时代和小数据时代。小数据采用随机样本分析,大数据采用全体数据分析;小数据讲求精确性分析,大数据注重效率性分析;小数据讲求因果关系,大数据注重相关性分析。随着小数据时代向大数据时代转移,样本思维必然向整体思维过渡,或者说,抽样调查将成为过去,整体数据分析将成为主流的思维方式。

大数据技术体系庞大而复杂,基础技术包含数据采集、数据预处理、分布式存储、数据清洗、数据挖掘、数据仓库、并行计算、数据可视化等。大数据的最终目标是数据分析处理,失去数据处理环节,大数据就毫无价值可言,数据处理是大数据产业的核心技术流程,再加上末端环节的数据可视化,整个链条才能呈现为完整的闭环系统。

大数据知识普及【1】

二、大数据的特征

业界通常用4V来概括大数据的基本特征,即数据体量大(Volume)、数据类型多(Variety)、处理速度快(Velocity)和价值密度低(Value)等四大特征。

(一)数据体量大(Volume)

只有数据体量达到PB级别以上,才能称为大数据。

数据存储的最小单位是比特(bit),只有0和1两种二进制状态。

数据存储的基本单位是字节(Byte),每个字节由0和1组合的8个比特(bit)组成。每个字节容纳一个英文字符,由此而成为数据存储的基本单位。

数据存储单位按照由小到大的顺序依次是bit 、Byte、KB、MB、GB、TB、PB、EB、ZB 、YB 、BB、NB、DB。

1Byte= 8bit 1KB=1024B

1MB=1024KB 1GB=1024MB

1TB=1024GB 1PB=1024TB

1EB=1024PB 1ZB=1024EB

1YB=1024ZB 1BB=1024YB

1NB=1024BB 1DB=1024 NB

1EB=1099511627776GB

一个WORD文档的容量约为100KB左右,一首音乐或歌曲的容量约为10MB左右,一部电影的容量约为1GB左右。目前个人计算机的硬盘容量可达到TB量级,大型数据集合一般都在10TB左右的规模。在实际应用中,许多大企业(比如云计算提供商)经常把多个数据集合放在一起,通常可以达到PB级别数据规模,而一些大型企业的数据量已经接近EB量级。只有数据体量达到了PB级别以上,才能称为大数据。

无人驾驶汽车每天行驶4小时,就会产生超过100EB的数据,要保障如此庞大的数据传输和人机交互,高速稳定和大并发的数字基础设施建设至关重要。

现代高铁一启动,就会产生大数据,以前铁路工人在铁轨上敲敲打打,通过声音检查问题; 如今高铁传感设备实时传回车辆大数据,及时诊断故障、预警、排查和定位,提高效率,降低成本。

喷气式客机一起飞,就会产生海量数据,帮助人们实时掌握飞行状态,发现潜在问题并预警,提前采取预防保护措施,大大减少故障率。

再比如远程医疗、物联网以及各种形式的人机交互等,不胜枚举的生产和生活场景,已经将人们包围在大数据的海洋中。

随着数字技术高速发展和大数据时代来临,数据开始呈现爆发性增长。大数据时代一两年内产生的数据,占到古今人类所有数据总和的90%,也就是说,过去一万年所产生的数据仅占数据总量的10%左右,随着大数据爆发式增长,这个比例还会进一步压缩。

人类社会现存所有印刷材料的数据总量仅为200PB,然而百度搜索每天提供的数据量超过1.5PB,如果将这些数据打印出来,将会超过5千亿张A4纸;阿里巴巴网购每天产生的商品交易数据量约为20TB;脸书用户每天产生的日志数据超过300TB。还有更惊人的数据,比如电视节目和卫星定位数据等,每年不低于2ZB。

(二)数据类别多(Variety)

数据共分为三种类型:结构化数据、非结构化数据和半结构化数据。

结构化数据,就是格式固定并且长度有限的数据。比如经常填写的表格就是结构化数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。结构化数据,又称为行数据,可以用二维表格进行逻辑表达和实现,主要应用在关系型数据库中。

非结构化数据,就是格式不固定长度也不固定的数据,比如网页、图像、音频、视频、地理位置信息以及网络日志等,有时候很长,有时候很短,这些都是非结构化数据。非结构化数据无法变成二维的行数据,即无法用二维表格进行表达和实现,所以一般不能用简单的关系型数据库存储。

半结构化数据是一些xml(可扩展标记语言)或者html(超文本标记语言)格式的文件,字段可根据需要扩充,主要用于软件编程。

在大数据出现之前,传统的数据处理工具,比如mysql/sqlsever/oracle等关系数据库,处理的往往是标准的结构化数据,也就是固定长度的二维表格化数据,但随着互联网(Internet)和物联网(Intranet)飞快发展,非结构化数据的规模日益增长,其数据规模通常达到PB/EB/ZB级别,传统的关系型数据库(MySQL)的局限性越来越明显,传统关系数据库处理T级别的数据量已经达到极限,面对PB/EB/ZB甚至更高级别的数据量,关系型数据库已经显得无能为力。于是基于网络应用的非结构化数据库应运而生。

(三)处理速度快(Velocity)

处理速度快或数据快速流转是大数据区别于传统数据挖掘的最显著特征。

PB规模的数据属于大数据的最低级别,1PB=1024*1024GB=100万GB,一部高清电影约1-4G左右,大数据瞬时处理1PB的数据量,相当于能够瞬时处理25-100万部的高清电影。"时间就是金钱,效率就是生命",包括经济、医疗、军事及其它各领域在内,决策都是讲求时效的,大数据实时处理优势有助于快速把握机遇。

在数据量非常庞大的情况下,大数据处理工具通过算法逻辑对数据信息进行快速处理,并从各种类型的数据中即时获得高价值信息。无论是生产还是生活,每天都会通过互联网产生大量的数据资料,大数据平台只保存几天或一个月内的数据资料,再远期的数据就要及时清理,否则耗费大量成本去存储价值较小的历史数据就很不划算,或者说代价太大。基于这种情况,大数据对处理速度有着非常严格的要求,很多平台都需要做到实时处理和分析,谁的速度更快,谁就更占优势,“1秒定律”显示了大数据与传统数据挖掘技术的本质不同。

(四)价值密度低(Value)

价值密度的高低与数据总量的大小成反比,数据总量越大,无效的数据可能越多,比如监控系统连续不断形成24小时的视频,有用的数据可能只有几分钟甚至几秒钟。再比如,以前使用胶卷拍摄照片,摄影师会选择重要的场景,设计好角度和光圈,并珍惜每一张照片。自数码相机普及后,存储容量无限扩大,每个人都可以肆无忌惮地自拍,即使是相同角度,也可以大量自拍,同一类型的数据多了,价值密度自然会降低。大数据是海量的数据集合,在大海中寻找宝藏犹如大海捞针,大数据的作用就是通过强大的机器算法快速挖掘或提纯出高价值的数据,这既是大数据的难点所在,又是大数据的优势所在。

三、大数据应用场景

大数据无处不在,并被应用于各个行业,包括金融、证券、保险、航空、政务、零售、交通、医疗、教育、酒店、餐饮、电信、能源、健康、娱乐、服务业以及社会治理等各个领域。

(一)人工智能(AI)应用场景

大数据能够促进人工智能(AI)产业的进化与发展,从而产生一些意想不到的结果。AI影响幅度很大,比如媒体业,现在计算机跟机器人可以写出很好的文章,而且1小时产出好几百篇,成本也很低。比如经济领域,AI对经济发展会产生巨大影响,很多知识产业跟白领工作也可能被机器人取代。再比如无人驾驶等高科技领域, AI会让驾车更安全,让生活更美好。

(二)智慧城市应用场景

智慧城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。比如交通领域,实时分析城市交通数据,指导驾车者选择最佳路径,有效改善城市拥堵状况;再比如,大数据和物联网支持的无人驾驶汽车,在不远的未来也会走入我们的生活。

(三)商务领域应用场景

借助大数据技术,可以分析客户行为,进行有针对性的商品推荐和广告投放;电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。

(四)制造业应用场景

工业大数据可以提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与进程。

(五)金融行业应用场景

大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

(六)能源行业应用场景

智能电网可以让电力公司掌握海量用户的用电信息,利用大数据技术,分析用户用电模式,改进电网运行,合理设计电力需求响应系统,确保电网安全运行。

(七)物流行业应用场景

利用大数据优化物流网络,提高物流效率,降低物流成本。

(八)生物医学应用场景

大数据促进城市精准医疗发展,比如降低医院误诊误判率。仅凭医生判断,难免产生误诊误判,如果把一个城市每一年的所有医疗病例数据汇集起来,然后去掉敏感的个人隐私数据,就可以做出一个超大样本的误诊误判的数据库,从中分析原因,提高病人的治愈率。

大数据可以实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。

(九)安全领域应用场景

政府可以利用大数据技术构建强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据预防犯罪。

(十)个人生活应用场景

大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。

(十一)社会治理应用场景

政府掌握着社会生产和民众生活相关的海量数据。大数据可以应用于政府治理中的各个环节,并推动政府治理模式的改变。大数据在政府治理方面已经有很多成熟的应用案例,比如城市应急管理、河道治理等。

(十二)大数据防止企业逃漏税

很多地区的税务局,利用大数据“治税”。比如,把发改委、经信委、税务局和法院的数据拧合在一起,就可能会发现某家企业的税务是有异常的。通过对多方面数据的综合分析,甚至可以发现某些公司人为造成亏损的假象,进而实现偷逃漏税的目的。当发现公司的税务异常迹象时,就可以做出一些数据分析,确认企业逃税漏税的可能性,促进相关部门公正合理执法。

大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。



分享到:


相關文章: