大数据时代,该如何获取信息?

maggie潘


随着大数据的不断发展,数据的价值得到了越来越多的关注,要想充分利用大数据,首先需要有数据来源,因此信息采集就成为了一个非常重要的环节。

通常情况下,采集信息有以下几个渠道:

第一:传统信息系统。传统信息系统采集的信息往往具有较高的价值,一方面原因是传统信息系统采集的往往是结构化数据,易于统计和分析,另一方面原因是传统信息系统采集的数据往往是比较重要的数据,对后续的数据分析有重要的参考价值。传统信息系统包含的内容比较广泛,比如常见的ERP系统。对于企业来说,传统信息系统的建设应该是信息化建设的第一步。

第二:Web平台。信息来源的另一个重要渠道是各种Web平台,随着Web应用的普及,尤其是Web2.0的普及应用之后,整个Web系统产生了大量的数据,这些数据也是大数据系统的重要数据来源之一。Web系统的数据具备几个典型的特点,比如数量大、结构多样性、真假难辨等等,这就需要通过数据分析来进一步体现其价值了。

第三:物联网系统。物联网与大数据的关系非常紧密,物联网系统的普及应用是产生大数据的重要原因之一,大数据的大部分数据来源就是物联网系统。通常情况下,物联网系统有五层结构,分别是设备、网络、平台、分析处理和服务应用,设备往往是数据的来源。与传统信息系统和Web系统不同,物联网的数据大部分都是非结构化数据和半结构化数据,要想对其进行分析需要采用特定的处理方式,比较常见的处理方式包括批处理和流处理。批处理比较常见的平台包括Hadoop和Spark,而流处理通常采用Spark Streaming、Storm等。

除了以上几个比较常见的信息采集渠道之外,通过线下活动进行信息采集也是一种获取信息的手段和方式。对于广大用户来说,要注意线下信息采集的安全性。

我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续在头条写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。

如果有互联网方面的问题,也可以咨询我,谢谢!


IT人刘俊明


在数据的江湖里,既有波澜壮阔的大数据(Big Data),也有微波涟漪的小数据(Small Data),二者相辅相成,才能相映生辉。目前大数据流行,人们就“言必称大数据”,这不是做学问的态度,不要碰到大量的数据,就给它戴上一顶 “大数据”的帽子。大数据体现出规律,小数据蕴含着智慧,它们都闪烁着理想之光。

古人云:“圣人见微知著,睹始知终。”道家的一部重要著作《淮南子·说山训》中说:“以小明大,见一叶落而知岁之将暮,睹瓶中之水而知天下之寒。”意思是说,看见一片落叶,就知道秋天来临;看到瓶中水结冰,就知道天气的寒冷程度,这是对见微知著的形象比喻。

吴甘沙先生用《一代宗师》的台词来比拟大、小数据的区分,倒也甚是恰当。他说,小数据“见微”,作个人刻画,可用《一代宗师》中“见自己”形容之;而大数据“知著”,反映自然和群体的特征和趋势,可用《一代宗师》中的“见天地、见众生”比喻之。

大就是大数据,就是全量数据;小就是小数据,就是个体数据。所以,对于数据科学,我们必须在把情况搞清楚的基础上懂得哪些是大、哪些是小、怎样处理大小辩证关系,才能在具体数据应用中做到抓大放小、以大兼小,以小带大、小中见大。在研究小数据时,要以大兼小、以小见大,必须考虑目标的正确性、可操作性和决策的科学性、可行性。在研究大数据时,要抓大放小、以小带大,既要考虑整体共性,又要注重个体特征。这样,数据应用中,大能与小数据量化的自我保持高度一致,小能与大数据预见的未来保持一致,既不能见小不见大,也不能见大不见小。对于数据科学,从数据中来,到数据中去,既要见大,也要见小,以小带大、小中见大,才能真正用好数据。

当认知科学领域发生“天翻地覆”的变化时,我们的未来又会是怎样?认知革命,特别是“真相时代”的到来,“预测”将被“预见”取代,那么,“预见未来”将不再是遥远的星辰。如果认知科学的本质是计算科学,那么,“大数据”和“小数据”争夺所谓“大小”的“江湖地位”意义何在?但我们需要觉悟的是:此“数据”非彼“数据”。面向未来,“大数据”和“小数据”将开启一个“全新故事”,一个“预见未来”的故事。


分享到:


相關文章: