大數據時代,該如何獲取信息?

maggie潘


隨著大數據的不斷髮展,數據的價值得到了越來越多的關注,要想充分利用大數據,首先需要有數據來源,因此信息採集就成為了一個非常重要的環節。

通常情況下,採集信息有以下幾個渠道:

第一:傳統信息系統。傳統信息系統採集的信息往往具有較高的價值,一方面原因是傳統信息系統採集的往往是結構化數據,易於統計和分析,另一方面原因是傳統信息系統採集的數據往往是比較重要的數據,對後續的數據分析有重要的參考價值。傳統信息系統包含的內容比較廣泛,比如常見的ERP系統。對於企業來說,傳統信息系統的建設應該是信息化建設的第一步。

第二:Web平臺。信息來源的另一個重要渠道是各種Web平臺,隨著Web應用的普及,尤其是Web2.0的普及應用之後,整個Web系統產生了大量的數據,這些數據也是大數據系統的重要數據來源之一。Web系統的數據具備幾個典型的特點,比如數量大、結構多樣性、真假難辨等等,這就需要通過數據分析來進一步體現其價值了。

第三:物聯網系統。物聯網與大數據的關係非常緊密,物聯網系統的普及應用是產生大數據的重要原因之一,大數據的大部分數據來源就是物聯網系統。通常情況下,物聯網系統有五層結構,分別是設備、網絡、平臺、分析處理和服務應用,設備往往是數據的來源。與傳統信息系統和Web系統不同,物聯網的數據大部分都是非結構化數據和半結構化數據,要想對其進行分析需要採用特定的處理方式,比較常見的處理方式包括批處理和流處理。批處理比較常見的平臺包括Hadoop和Spark,而流處理通常採用Spark Streaming、Storm等。

除了以上幾個比較常見的信息採集渠道之外,通過線下活動進行信息採集也是一種獲取信息的手段和方式。對於廣大用戶來說,要注意線下信息採集的安全性。

我從事互聯網行業多年,目前也在帶計算機專業的研究生,主要的研究方向集中在大數據和人工智能領域,我會陸續在頭條寫一些關於互聯網技術方面的文章,感興趣的朋友可以關注我,相信一定會有所收穫。

如果有互聯網方面的問題,也可以諮詢我,謝謝!


IT人劉俊明


在數據的江湖裡,既有波瀾壯闊的大數據(Big Data),也有微波漣漪的小數據(Small Data),二者相輔相成,才能相映生輝。目前大數據流行,人們就“言必稱大數據”,這不是做學問的態度,不要碰到大量的數據,就給它戴上一頂 “大數據”的帽子。大數據體現出規律,小數據蘊含著智慧,它們都閃爍著理想之光。

古人云:“聖人見微知著,睹始知終。”道家的一部重要著作《淮南子·說山訓》中說:“以小明大,見一葉落而知歲之將暮,睹瓶中之水而知天下之寒。”意思是說,看見一片落葉,就知道秋天來臨;看到瓶中水結冰,就知道天氣的寒冷程度,這是對見微知著的形象比喻。

吳甘沙先生用《一代宗師》的臺詞來比擬大、小數據的區分,倒也甚是恰當。他說,小數據“見微”,作個人刻畫,可用《一代宗師》中“見自己”形容之;而大數據“知著”,反映自然和群體的特徵和趨勢,可用《一代宗師》中的“見天地、見眾生”比喻之。

大就是大數據,就是全量數據;小就是小數據,就是個體數據。所以,對於數據科學,我們必須在把情況搞清楚的基礎上懂得哪些是大、哪些是小、怎樣處理大小辯證關係,才能在具體數據應用中做到抓大放小、以大兼小,以小帶大、小中見大。在研究小數據時,要以大兼小、以小見大,必須考慮目標的正確性、可操作性和決策的科學性、可行性。在研究大數據時,要抓大放小、以小帶大,既要考慮整體共性,又要注重個體特徵。這樣,數據應用中,大能與小數據量化的自我保持高度一致,小能與大數據預見的未來保持一致,既不能見小不見大,也不能見大不見小。對於數據科學,從數據中來,到數據中去,既要見大,也要見小,以小帶大、小中見大,才能真正用好數據。

當認知科學領域發生“天翻地覆”的變化時,我們的未來又會是怎樣?認知革命,特別是“真相時代”的到來,“預測”將被“預見”取代,那麼,“預見未來”將不再是遙遠的星辰。如果認知科學的本質是計算科學,那麼,“大數據”和“小數據”爭奪所謂“大小”的“江湖地位”意義何在?但我們需要覺悟的是:此“數據”非彼“數據”。面向未來,“大數據”和“小數據”將開啟一個“全新故事”,一個“預見未來”的故事。


分享到:


相關文章: