02.26 歪解大数据3V特征

在这个跟风的时代,大数据风已经不再强劲。但这篇文章对我来讲,还有个功能做为公司的内训的一部分,因此做为最经典的大数据的3V特征还是要说一下。在各种大会演讲中 3V特征(Volume、Velocity、Variety)大概是这样的。

(1)Volume容量巨大。基本上的故事是未来数据将不是以MB和GB计算,未来的数据至少是TB, PB和 ZB的。

(2)Variety(数据多样性)。基本上讲的是,数据有结构化数据、半结构化数据和非结构化数据,在小数据时代基本以结构化数据为主。讲讲图片和视频的故事,所以听众产生了个典型误解,半结构化、非结构化处理能力才是大数据能力。

(3)Velocity(速度快)。由于数据自身具有时效性,其所能挖掘的价值可能稍纵即逝,如果大量的数据来不及处理,其价值也会衰减。所以,现在的竞争不仅仅是数据的竞争,同时还是速度的竞争。

歪解大数据3V特征

什么是Big?


我们的角色呢? 做为数据专业工作者,就是给这些形式化的解释加加料,各位专家、教授讲的是对的,只是太形式化了,有点离本质太远。某些方面使听众没法真正理解什么是大数据?专业的数据工作者的加了人间烟火的解释是:

第一个是Volume(海量), Volume本质其实不是TB、也不是PB和ZB,Volume是个相对的概念,不用那么大,那么多,只是相对比原来多就行。所以我们的用户不用再担心,我们没有TB级别的数据就不是大数据了。举个例子:假如我是一家服装经销商,我2000条数据,我就可以自己的销售情况,了解红色的卖的好,还是毛毛虫卖的好。我有20000条数据可以了解整个市场(比如:五爱市场),我有200000万条数据可以了解整个城市的销售趋势。以决定我来年的订货决策。因此Volume真正概念是尽量获取更多的数据,不一定是TB,还是PB. 以辅助我们的决策、或者对社会、事务的认知。

第二个是Velocity(速度),各种武功,唯快不败,尤其在现在的商业环境下,已经快到可以不尊重自然规律,单纯的追求快的程度。在数据领域给大家加个料,叫现代倒爷,在黄金市场,有上海交易所,伦敦交易所和芝加哥交易所等等,在某个时间点,我们可以在上海买入145.1元,在伦敦卖出以赚取价差,145.11元,只有你的速度足够快,比如1微妙之内。这个80年代倒电子表,服装的倒爷是不是类似。广州的价格和北京价格不一样就行,而且数字的时间物流比较简单,以近光速的形式传输的数据。

第三个是Variety(多样性),什么是多样性呢?其实不仅仅是结构化数据+非结构化数据这么问题。数据来源多样,形式多样都可以算是多样性。比如:医生为病人看病,有了体温数据,再加一些血液的化验数据,更容易判断你是感冒了,还是得了肺炎。同样,如果海关的报关数据、再加上市场上实际销售价格数据,对税收管理和风险管理可能都有所帮助。

数据是个有意思的东西,有了数据可以带来直接或者间接的收益是非常可观的,可以帮你写论文,可以帮企业赚钱。大数据的核心其实不是“大”。大数据是用数据解决问题的思维、处理问题的方式。“大”这个字很好,虽然不精确,但有利于传播。


分享到:


相關文章: