在大數據面前,每個人都是赤裸的

在大數據面前,每個人都是赤裸的

「我的女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優惠券,這是在鼓勵她懷孕嗎?」一個男子衝進一家商店,要求經理出來見他,並怒不可遏地說出了上述這句話。幾天後,經理打電話向這個男人致歉時,他的語氣卻變得平和了起來:「我跟我女兒談過了,她的預產期是 8 月份。是我完全沒有意識到這個事情的發生,說抱歉的人應該是我。」——《大數據時代》

上面這段內容講的是美國一家零售商通過分析大量女性的消費記錄,根據購物的內容變化來推測懷孕的月份乃至預產期,據此來精準投放購物廣告。

結果表明,擁有大量數據的機器比粗心的父親更早知道女兒的身體狀況。這無疑是讓人汗顏的。這個例子僅僅只是大數據應用的一個縮影。事實上,在這個大數據時代,萬事萬物產生的海量數據之中蘊藏著豐富的信息,把握好了就是無數的商機。

什麼是大數據?

從字面的意思來看,大數據就是大量的數據。業界一般認為數據量達到普通的設備存不下,算不動的程度,就可以稱之為大數據了。

「大數據又稱為巨量資料,指的是在傳統數據處理應用軟件不足以處理的大或複雜的數據集的術語。」—— 維基百科

「大數據是指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。」—— 百度百科

「大數據由巨型數據集組成,這些數據集大小常超出人類在可接受時間下的收集、庋用、管理和處理能力。」—— MBA 智庫

從上面的幾種定義可以看出,首先,數據量要大到常規方式無法處理的程度;再者,大數據作為信息資產,需要通過處理從中獲取價值信息。

大數據到底有多大?

普通個人電腦所能存儲的數據,一般是幾百個 GB 到幾個 TB 的級別。例如,常見的固態硬盤,512GB 就已經比較大了;常見的機械硬盤,可達 1TB/2TB/4TB 的容量。表達數據容量的 KB,MB,GB 和 TB 之間的關係,大家應該都很熟悉了:KB(Kilo Byte) — 千字節,也就是 1024BMB(Mega Byte) — 兆字節,也就是 1024KBGB(Giga Byte) — 吉字節,也就是 1024MBTB(Tera Byte) — 太字節,也就是 1024GB 而大數據是什麼級別呢?PB/EB 級別。其實就是在 TB 的基礎上每一級接著乘以 1024。PB(Peta Byte) — 皮字節,也就是 1024TBEB(Exa Byte) — 艾字節,也就是 1024PBZB(Zetta Byte) — 澤字節,也就是 1024EBYB(Yotta Byte) — 堯字節,也就是 1024ZB 上述的這些大的單位在日常生活中幾乎接觸不到,而且常人也已經無法直觀地感受到這些單位能大到什麼讓人吃驚的程度。下面我們舉個簡單的例子來說明。一本《紅樓夢》:純文本(未壓縮),約 2MB 一張 1200 萬像素的照片(未壓縮):約 34MB 一部 90 分鐘的電影(H.264 編碼):約 2.5GB(也就是 2500MB)這樣算下來,一塊 1TB 的硬盤大約可以存儲 50 萬本電子書,3 萬張圖片,400 部電影。假定三天時間看完一本書,這 50 萬本就需要 4000 多年才能看完。1PB 的容量大約可存儲 5 億本書,3 千萬張圖片,或 40 萬部 90 分鐘的電影。看書的時間過於誇張就不說了,這些電影也需要持續近 140 年時間才能看完。1EB 這個單位的龐大已經超乎了人們的想象,僅僅存放這些數據需要大約 2000 個機櫃的存儲設備。如果並排放這些機櫃,可以連綿 1.2 公里那麼長。如果擺放在機房裡,需要 21 個標準籃球場那麼大的機房,才能放得下。真的有企業會產生如此海量的數據嗎?事實上,阿里、百度、騰訊這樣的互聯網巨頭,因為其擁有數億的用戶,這些海量用戶產生的數據量早已超越 PB 級,接近 EB 級。

大數據是怎樣產生的?

隨著互聯網,物聯網的發展,萬事萬物皆可連接,皆可源源不斷地產生數據,從涓涓細流匯聚成汪洋大海。經過移動互聯網的大爆發,中國的上網用戶數已經約等於智能手機的用戶數,通過 4G 網絡隨時連接,實時在線。這些用戶在手機上的每一次滑動和點擊,都會被各式各樣的 APP 上傳並存儲,以及在微博,微信,知乎,抖音等各種社交或者 UGC 類 APP 上創作的文本,圖片和視頻,形成海量的數據。

物聯網方面也不遑多讓。據 GSMA 智庫預測,到 2025 年全球將會有 18 億移動物聯網連接(總共 31 億蜂窩物聯網連接),以及 138 億工業物聯網連接,其中 63 億在亞太地區和中國,佔總數的 65%。如果放在以前,計算機的硬件(存儲,計算)等資源還很金貴的情況下,這些數據只能是經過簡單彙總之後就被丟掉。然而隨著技術的發展,計算機硬件的存儲和計算能力越來越強,越來越不值錢,這些原本被認為食之無肉棄之有味數據才能被大量存儲和處理,並挖掘價值。目前微信擁有 11 億的用戶,每天發送數百億條消息,還有朋友圈,支付,掃一掃,搖一搖等多種行為都存儲在微信的後臺。如果要從這些海量數據中分析所有微信用戶的行為習慣,比如每天的使用時長,偏好發語音還是文字,對哪些類型的公眾號感興趣等數據就沒有那麼簡單了。這就是各種大數據技術誕生及發展的驅動力。

大數據有哪些特點?

由於大數據的描述眾說紛紜,4 個 V,5 個 V,乃至 8 個 V 的說法都有。本文就簡採用 IBM 的 4V 說:大量(Volume),高速(Velocity),多樣(Variety),價值(Value)。

在大數據面前,每個人都是赤裸的

1、大量:這一點是大數據最基礎的屬性,前面講過了。也就是說:大數據分析的是所有樣本,不是隨機抽樣,因此可進行多維度,任意縮放地進行分析。2、高速:數據產生地快,對分析和使用的速度要求也很高。如果像刻舟求劍一樣,分析地雖然精確,但耗時過長,以至於結論早已過時,終究是沒有用處的。試想一下,在網上買書的時候,系統會根據目前瀏覽的書來智能推薦用戶還可能感興趣的其他書,這個是要求秒級響應的。如果過了半小時才算出結果來,用戶很可能早都購物結束了。3、多樣:數據的來源多種多樣,格式不一,既有傳統的結構化數據,更多的則是非結構化數據。結構化數據就是可以按照預定義的關係模型來存儲的數據。

在大數據面前,每個人都是赤裸的

非結構化數據指的那些沒有固定格式,內容需要分析識別才知道的數據,一般就是網頁,圖片,音頻,視頻等數據。這些數據佔比可達 80%以上。

也就是說,大數據不是精確性,而是混雜性。這些數據不論格式,只要擁有可供挖掘的信息,就都來者不拒。4、價值:數據雖多,但價值密度很低,必須經過大量的分析和提取,才能較為準確地發現其中蘊藏的規律。

據不完全統計,公安機關全國每年需要存儲的數據量高達 3.3EB,結合視頻監控和人臉識別,實現犯罪嫌疑人的快速識別和實時布控。中國的犯罪率是很低的,收集並存儲如此多的數據,就是為了進行大海撈針,可見大數據的價值密度之低。並且,大數據的價值體現在對數據內部隱含的相關性的挖掘,而非對因果性的求索。這個世界是複雜的,有相關性的事件之間不一定有直接的因果關係。我們不必糾結於事件之間具體的前因後果,只要知道它們之間是有正向或者負向聯繫的,只需照著做就能體現數據分析的價值了。

這是一種實用主義的態度。舉例來說,沃爾瑪超市發現把啤酒和尿布放在一起時,啤酒的銷量會大幅增加。此時擺在老闆面前兩個選擇:是繼續研究苦苦研究這個現象內在的因果關係呢,還是趕緊所有門店都如此配置起來好更快地賺錢?

答案顯然是後者。大數據分析是用來發現相關性來創造價值的,而非探索因果關係進行科研。

大數據有哪些用處?

1、用戶畫像

「千萬人撩你,不如一人懂你。」在現實世界裡,唯一懂你的 TA 就是默默關注著你的大數據。

你的一舉一動,都被各種 APP 記錄下來並進行分析,找出典型特徵,並據此跟你打上各式各樣的標籤。這些標籤匯聚起來就是你這個人在網絡上的化身,美其名曰「用戶畫像」。

在大數據面前,每個人都是赤裸的

通過蒐集並分析多維數據,這些用戶畫像可以包含生活中的方方面面,每一個用戶在大數據面前都是一絲不掛的。基於對用戶的瞭解,各種各樣的精準營銷就可以高效進行了。

在大數據面前,每個人都是赤裸的

如此一來,你打開購物 APP,醒目位置顯示的都是自己想要買的東西;打開資訊 APP,頭條裡面推薦的都是自己偏好的內容;打開搜索引擎,搜出來的東西都正好是自己想要找的。亞馬遜技術專家曾經說過:「如果系統運作良好,亞馬遜應該只推薦你一本書,而這本書就是你將要買的下一本書。」

2、決策支撐在移動通信領域,所有用戶產生了海量的信令交互,網絡測量報告,以及各種各樣的業務數據。

這些信息都是被記錄下來的,除了可以用來追蹤用戶,解決故障之外,還能用來了解自身的網絡覆蓋,容量,用戶滿意度等指標,並能和對手進行對比分析。

基於這些大數據的分析結果,網絡優化,用戶體驗提升等操作都可以有的放矢,更為方便高效。

在醫療領域,大量患者產生的海量數據可以用來進行臨床治療對比,藥品研發,疾病診斷,甚至還能作為醫保政策,額度等調整優化的依據。除了上面的例子之外,大數據還在互聯網,金融,以及各種垂直行業內部都有著豐富的應用場景。總結起來就是「知己知彼,百戰不殆」,「運籌帷幄,決勝千里」。

大數據和雲計算,人工智能及 5G 之間有什麼關係?

由於大數據分析需要對大量的數據進行分解,統計,彙總,一臺機器肯定搞不定,於是就有了分佈式計算的方法。也就是說,將大量的數據分成很多的小份,每臺機器只處理其中的一小份,多臺機器並行處理,處理速度得以大幅提升。例如著名的 Terasort 對 1 個 TB 的數據排序,如果單機處理,怎麼也要幾個小時,但並行處理,僅需要 209 秒即可完成。

在分佈式計算框架下,大數據的處理,可以分為數據收集,數據存儲,數據處理(資源管理與服務協調,計算引擎),數據分析,數據可視化這幾層。

在大數據面前,每個人都是赤裸的

大數據需要大量的服務器資源,但這些資源可能並不是隨時都滿負荷工作的。例如使用大數據來分析公司的財務情況,可能只需一週分析一次,但把這成千上萬臺機器放在機房裡,每週用一次是非常浪費的。

這正是雲計算誕生的初衷。如果能在不同的時間,把這些閒置機器提供的網絡,存儲以及計算能力共享給其他用戶使用,資源的利用率將大大提升。

雲計算通過硬件資源的虛擬化,相當於平臺的提供者,而大數據是海量數據的高效處理,相當於雲計算平臺上的大型應用。

那大數據和人工智能有沒有關係?實際上,大數據是人工智能發展的前提。目前人工智能的主流算法是深度學習,其能夠大展身手需要兩個條件:強大的計算能力和高質量的大數據。其中最具有代表性的系統,就是著名的「谷歌大腦」。這是一個龐大的深度學習計算框架,擁有數萬臺高性能的計算機和頂級圖形處理器組成的計算單元,可以完成大規模,多維度,多層次的深度學習模型訓練。據悉,在谷歌大腦建立不久,谷歌就使用了一個擁有 16000 的 CPU 組成的超大規模計算機集群,讓機器用深度學習模型自己「看」了一千萬段視頻,終於把人工智能訓練地學會了如何從視頻中辨認出一隻貓來。因此,沒有大數據所提供的足夠的學習樣本,深度學習系統搭建得再完美也沒用。對人工智能來說,深度學習算法是靈魂,雲計算是肉體,大數據則是糧食。沒有糧食,肉體和靈魂就都成了空中樓閣。只有這三者合力,才能揭開人工智能應用的新篇章。而 5G 提供的萬物互聯,正是人工智能的糧食——大數據產出的肥沃土壤。這就是大數據和雲計算,人工智能,以及 5G 之間剪不斷理還亂的聯繫。

好了,本期的內容就到這裡,希望對大家有所幫助。—— 全文完 ——

參考文獻:

1、《大數據時代》,維克托•邁爾•舍恩伯格,肯尼思•庫尼耶

2、《看懂“大數據”,這一篇就夠了!》,鮮棗課堂

3、《大數據技術體系詳解,原理,架構與實踐》,董西成


分享到:


相關文章: