09.14 大數據：人工智能的基石科技頭條網

2018-09-14 18:46:01 智能舌診

目前的深度學習主要是建立在大數據的基礎上，即對大數據進行訓練，並從中歸納出可以被計算機運用在類似數據上的知識或規律。那麼，到底什麼是大數據呢？

人們經常籠統地說，大數據就是大規模的數據。

這個說法並不準確。“大規模”只是指數據的量而言。數據量大，並不代表著數據一定有可以被深度學習算法利用的價值。例如，地球繞太陽運轉的過程中，每一秒鐘記錄一次地球相對太陽的運動速度、位置，這樣積累多年，得到的數據量不可謂不大，但是，如果只有這樣的數據，其實並沒有太多可以挖掘的價值，因為地球圍繞太陽運轉的物理規律，人們已經研究得比較清楚了，不需要由計算機再次總結出萬有引力定律或廣義相對論來。

那麼，大數據到底是什麼？大數據是如何產生的？什麼樣的數據才最有價值，最適合作為計算機的學習對象呢？

根據馬丁·希爾伯特（Martin Hilbert）的總結，今天我們常說的大數據其實是在2000年後，因為信息交換、信息存儲、信息處理三個方面能力的大幅增長而產生的數據：

·信息交換：據估算，從1986年到2007年這20年間，地球上每天可以通過既有信息通道交換的信息數量增長了約217倍，這些信息的數字化程度，則從1986年的約20%增長到2007年的約99.9% 。在數字化信息爆炸式增長的過程裡，每個參與信息交換的節點都可以在短時間內接收並存儲大量數據。這是大數據得以收集和積累的重要前提條件。例如，根據對社交網站Twitter的統計，全球範圍內每秒鐘新增的推文條數約6000條，每分鐘約350000條，每天約5億條，每年約2000億條。在網絡帶寬大幅提高之前，這個規模的信息交換是不可想象的。

·信息存儲：全球信息存儲能力大約每3年翻一番。從1986年到2007年這20年間，全球信息存儲能力增加了約120倍，所存儲信息的數字化程度也從1986年的約1%增長到2007年的約94%。1986年時，即便用上我們所有的信息載體、存儲手段，我們也不過能存儲全世界所交換信息的大約1%，而2007年這個數字已經增長到大約16%。信息存儲能力的增加為我們利用大數據提供了近乎無限的想象空間。例如，谷歌這樣的搜索引擎，幾乎就是一個全球互聯網的“備份中心”，谷歌的大規模文件存儲系統完整保留了全球大部分公開網頁的數據內容，相當於每天都在為全球互聯網做“熱備份”。

·信息處理：有了海量的信息獲取能力和信息存儲能力，我們也必須有對這些信息進行整理、加工和分析的能力。谷歌、Facebook、亞馬遜、百度、阿里等公司在數據量逐漸增大的同時，也相應建立了靈活、強大的分佈式數據處理集群。數萬臺乃至數十萬臺計算機構成的並行計算集群每時每刻都在對累積的數據進行進一步加工和分析。谷歌的分佈式處理三大利器——GFS、MapReduce和Bigtable就是在大數據的時代背景下誕生併成為絕大多數大數據處理平臺的標準配置。利用這些數據處理平臺，谷歌每天都會將多達數百億的搜索記錄清理、轉換成便於數據分析的格式，並提供強有力的數據分析工具，可以非常快地對數據進行聚合、維度轉換、分類、彙總等操作。

圖1 大數據的三大支柱

從應用角度來說，今天的大數據越來越多地呈現出以下一種或幾種特性：

大數據越來越多地來源於生產或服務過程的副產品，但在價值上卻往往超過了為了特定目的專門採集的數據。例如，谷歌的大數據雖然主要從搜索引擎的日常使用中獲得，但如果深入挖掘，這些數據往往具有非常高的專業價值。谷歌曾利用全球用戶查詢中，涉及流行性感冒的關鍵詞的出現頻率變化情況，對2003年到2008年全球季節性流感的分佈和傳播進行跟蹤與預測。這一預測的覆蓋規模和價值甚至超出了各國衛生部門專門收集相關數據所做的預測。

大數據往往可以取代傳統意義上的抽樣調查。例如，按照傳統方式，電視臺某個節目的收視率往往要由專業調查公司通過抽樣調查的方式，通過電話拜訪等渠道獲得抽樣數據，再估算收視率。現在，有了微博或類似的社交網絡，我們可以直接利用微博上每時每刻產生的大數據，對電視節目、電影、網絡節目的熱門程度進行分析，其準確性往往超過傳統的抽樣調查方式。

許多大數據都可以實時獲取。例如，每年雙十一，在阿里的淘寶、天貓這樣的電子商務平臺上，每時每刻都有成千上萬筆交易正在進行，所有這些交易數據在阿里交易平臺的內部，都可以實時彙總，供人們對雙十一當天的交易情況進行監控、管理或分析、彙總。一部分數據的時效性非常強，如果不能實時利用，則數據的附加值會大幅降低。大數據的實時性為大數據的應用提供了更多的選擇，為大數據更快產生應用價值提供了基礎。

大數據往往混合了來自多個數據源的多維度信息。一份微博用戶的ID列表雖然很有價值，但並不容易轉換成商業應用所需要的完整信息。假如能利用用戶ID，將用戶在微博上的社交行為，和用戶在電子商務平臺如淘寶、京東等的購買行為關聯起來，通過對不同來源的大數據的整合，採集到更多維度的數據，就可以向微博用戶更準確地推薦他最喜歡的商品。聚合更多數據源，增加數據維度，這是提高大數據價值的好辦法。

大數據的價值在於數據分析以及分析基礎上的數據挖掘和智能決策。大數據的擁有者只有基於大數據建立有效的模型和工具，才能充分發揮大數據的價值。例如，圖2是利用谷歌趨勢（Google Trends）對過去5年全球地震分佈進行分析彙總。我們很容易根據用戶查詢地震相關關鍵詞的頻率，看出過去5年內主要地震的發生時間和地點。在這裡，谷歌趨勢就是一個利用已有大數據建模、分析、彙總的有效工具。