大数据相对抽样数据,全体数据的好处更多

大数据相对抽样数据,全体数据的好处更多

在过去绝大多数年代,只有政府才能进行大规模采集数据进行分类。为了管理国家,政府需要收集各种各样的信息,比如人口数据,为了处理人口普查生成的数据,催生了IBM公司。

人们很容易理解利用全体数据进行分析比只用其中一部分更好,但是当对象的数量非常大时,获得全体数据所需要的资源是很多的,在以前根本不可能有个人和私营企业能承担这种花费。实际上,正是资源的有限性限制了采集数据的规模,毕竟任何时候资源都不可能是无限的。

为了解决这个矛盾,人们发明了随机抽样理论。根据统计学理论,如果保证抽样的随机性,采样分析的精度可以非常高。这个理论使低成本、高频率的调查具备了可行性,于是随机采样也逐渐扩大了应用范围,比如商业领域的产品质量监督检查,客户的调查,选举调查等。

随机采样是一种性价比很高的方式,但是它有以下三个弱点:

第一,随机采样的准确性依赖于随机性,但是随机性很难把握,也很难实现。比如调查一个城市的个人收入调查,如果采用电话询问,即使每个人都诚实的回答,能被调查的人也只能是有电话的人,这就带来了偏差。

第二,随机采样不适合对子分类进行分析。因为子分类会导致能被应用的样本减少,准确度就大幅度降低。就像一张数码照片放大了看一个局部,就会变得模糊,出现马赛克。

第三,随机采样需要严密的安排和执行。为了实现抽样的随机性,抽样需要预先想好实现随机性的方法,但这种方法通常就不能满足其他问题的随机程度,也就是无法面对新问题,重复应用受到限制。

而科技的进步使数据的收集和分析都变得廉价,使获得全体样本的大数据分析成为可能。实际上,大数据并不必然就是“数据量大”,而是“数据全”,是把目标对象所有相关信息都收集起来。

大数据调查方式的出现对社会科学是一种颠覆性技术,因为社会科学的主观性,被调查人在调查中受心理、利益的影响比较大,真实性很差。但是大数据通过查找手机通信记录和社交网站留言等,对人的社交进行调查,这种偏差就被消除了。


分享到:


相關文章: