十問大數據到底為何物?

在互聯網時代,大數據炙手可熱,許多人言必稱大數據,但能夠真正說清大數據為何物的人並不多,如何藉助大數據挖掘出巨大的商業價值。究竟如何定義大數據?大數據有哪些特徵?本文旨在理清大數據概念,闡明大數據應用方式及探究未來大數據發展之道。


十問大數據到底為何物?


Q1:大數據是商業炒作嗎?

業界給大數據的定義是4 個“V”:體量大(Volume)、種類多(Variety)、速度快(Velocity)和真實性高(Veracity)。但這個定義其實並未抓住大數據本質。如果僅僅看這幾個維度,大數據就是一種炒作,因為它們只是表面現象。

大數據的本質應該是如何為企業帶來一種更新更好的商業運作模式,而大數據應用的成功,也是依靠決策者提出好的商業問題及與其相關的商業模式。這些商業問題可以非常簡單,但問題背後必須有一系列相關的商業模式。

比如,如何運用智能手機應用商城的數據, 來提高對用戶APP 推薦的精度?

隨後,利用應用商城的大數據,可以產生上百萬維的數據表,進而建立可靠準確的推薦模型,使得用戶體驗水平大幅提升。

大數據應用成功的關鍵也正取決於是否有一個明確的商業(或科學)目的,商業模式的定義是其前提條件。

Q2:數據越多越有用?

首先,如果收集大數據的目的是建立一個對位置數據的預測模型,那麼,得到這一模型的訓練數據一定要包含所需的信息。但問題恰恰是,事前並不知道哪些特徵是重要的,因此,需要把儘量多的數據整合起來,讓機器去尋找。

然而,這個問題為什麼不能去諮詢該領域內的專家們呢?事實證明,專家們雖然會自己解決問題,但大都說不清他們是如何解決這些問題的。這也就是為什麼在大數據應用中,專家的作用更多體現在幫助連接、聚合儘量多的數據上。

除此之外,要建立一個好的預測模型,用來訓練模型的數據總量也要足夠多。如果歷史數據少於一定規模,就會出現所謂“過擬合”(為了得到一致假設而使假設變得過度複雜)現象。例如,如果一個服裝品牌按照某一個模特的身材來設計,衣服很可能做得偏瘦,以至於絕大多數其他消費者無法使用。這種“過擬合”現象在建立大數據下的預測模型時也會發生。

那麼,數據的總量越大,是不是預測模型需要學習的時間就一定越長呢?答案是否定的。研究成果表明,在一定條件下,當數據變得越大,實際所需要的訓練時間反而越短。為什麼會這樣呢?可以想象:如果一個學生在學習某種概念時,只有少數習題,那麼這個學生想透徹學會這個概念,就需要把每一個習題翻來覆去地看,加以擴展,這樣學習的過程會比較慢。相反,如果他有許多不同類的習題,只需要把每一個習題過一遍,即可應付未來的大部分情況。因此,習題多的學生,學到同樣水平的時間反而會短。

Q3:人工智能將超過人類大腦?

經過幾十年的探索,可以相信:機器的智能只能從針對大數據的學習中得來,而大數據只能從人與人的交互、人與機器的交互中得來。如果想要這些交互產生足夠多的數據,就一定要讓這些交互為人類提供有用的服務。

如今,什麼數據最為充分?充分的數據首先是最容易被記錄的那一部分,比如語音、圖像、文字等。能不能直接獲取人類大腦活動信息,並以此來充實我們的智能呢?當今的這種技術(如磁共振腦圖成像技術)

還不夠精確,因此,通過學習得到的系統雖然在單方面可以超過人類大腦(如IBMWatson),但就通用性而言,現階段的人工智能比起人類大腦還差得很遠!

有沒有可能在不久之後的某天,具有人工智能的機器人成為人類的敵人呢?這是有可能的。但前提是:這些機器人的領袖一定是人類。

Q4:用戶隱私問題如何解決?

隱私問題的出現其實比大數據要早,但隱私真正成為家喻戶曉的議題,卻是在大數據成為熱點之後。從斯諾登揭秘到蘋果數據上傳,隨著越來越多媒體的爆料,大家對隱私的關心程度也與日俱增。隱私問題的最大矛盾在於,一方面,數據被嚴嚴實實地包起來,另一方面,它又要被運用來發現有用的東西,不得不將之開放和上傳。

目前看來,數據隱私問題有三個考慮: 1. 技術;2. 用戶利益;3. 社會接受程度。

從技術上來說,以前有關數據的解決方式大都是把數據從終端遷移到計算端(如計算中心),得出結果後再把結果送到終端。這種方式無疑會引發隱私問題,因為一旦數據離開用戶的個人終端,就無從保證誰將有權利接觸數據,數據的隱私也就無從保護了。

要保護隱私,一種新的模式是“計算隨著數據走”,也就是利用終端自身的強大計算功能,在終端算好一個結果(如一個預測模型,即本地模型),再把這個模型與某一個通用模型加以整合。這種模式無疑會引入更多計算量與複雜性,目前還屬於前沿研究領域。這種方法就像是有人要買股票,但又不想別人知道他自己的需求,只讀取網上有關股票的信息,與自己知道的需求結合起來,做出買賣決策。只要每個人足夠聰明,又有足夠的計算能力,這樣的系統就會最大程度地保護每個人的隱私。


十問大數據到底為何物?


另一種做法是,仍把數據傳輸到計算中心,但在傳輸之前,將數據加以改變,使其中的關鍵隱私信息在傳輸和計算中被隱藏起來,讓人無法反推原始的敏感數據(如用戶性別、住址等),同時又保證計算結果的真實性和可用性。實際上,一個更難的問題是:無論如何隱藏和加密原始數據,用戶心裡總有不放心的一點陰影。由於這個陰影的存在,用戶永遠不會相信一個單純靠技術的隱私保護計劃。可以預見,在未來,隱私問題的解決程度將成為用戶選取產品的重要依據。

可是,大數據已經來到人們身邊。今天社會上的每個人,實際上都是大數據的使用者。同時,又在不斷暴露自己的隱私。比如,用戶使用免費的電子郵件賬戶,即便知道這些服務商在挖掘我們的郵件信息;用戶使用搜索引擎詢問各種問題,儘管這令我們的問題被記錄在案。既然如此,為何用戶在使用大數據服務的時候,依舊樂此不疲呢?答案在於用戶利益與隱私暴露的費用比:如果用戶得到的利益大於個人數據洩露的價值,用戶還是會同意接受並分享這些數據的。因此,隱私問題的關鍵是,如何讓系統和用戶在矛盾中尋找到一個平衡點。

最後,隨著技術的發展,社會對於數據分享的接受程度也會改變。上一代人所不能接受的事物,到下一代可能就不是大問題了。Facebook 就是個例子:實名制允許人們訪問他人的主頁,並看到許多信息,這一點在最開始引起不小的質疑,但最後,廣大青少年熱烈地擁抱這一新技術,並紛紛加入其中。

在此我向大家推薦一個大數據開發交流圈:658558542 裡面整理了一大份學習資料,全都是些乾貨,包括大數據技術入門,大數據離線處理、數據實時處理、Hadoop 、Spark、Flink、推薦系統算法以及源碼解析等,送給每一位大數據小夥伴,讓自學更輕鬆。這裡不止是小白聚集地,還有大牛在線解答!歡迎初學和進階中的小夥伴一起進群學習交流,共同進步!

Q5:運營商管道vs 互聯網用戶大數據?

互聯網與電信運營商的關係,可以用一個例子來理解:馬路上形形色色的車輛可以視為互聯網,車上所裝的貨物、乘客及運輸系統可以視為互聯網的數據和各種應用,而車輛所走的高速公路類似於運營商提供的管道。對於互聯網而言,它更關心乘客和貨物,關心如何把他們安全送到目的地。但從運營商角度而言,它更關心的是道路是否通暢。從這一點來說,互聯網的數據有關乘客和貨物,運營商的數據是車流量、道路擁塞的程度。所以,互聯網的數據是終端用戶數據,運營商的數據是關於數據的數據。

什麼是關於數據的數據呢?以照片為例,像素點就是數據,而照片大小、類型、照片文件的產生時間與地點,就是數據的數據。

數據的數據在電信行業意義重大。但其前提是:資源無論到何時都是有限的。管道再寬,也是有限的。那麼,從運營商的角度來說,他們希望知道什麼呢?還是以車和路來比喻:

你想知道如何為一些重要的常客開闢一條快速通道嗎?那就首先要知道哪些是重要的常客。只有知道了常客的群體,常客的特徵,才能有效抓取到他們。你想知道哪些重要車輛所屬的公司在受競爭對手的高速公路公司吸引,正考慮換路嗎?那就要分析這些車輛公司的痛點何在。你想知道哪些路段需要特別維護,並派一些常駐維護車輛駐守嗎?那就需要分析哪些是容易受損的路段。

這些對數據分析的需求隨著運營技術的前進而提升。在5G的場景下,運營商需要給大眾提供更密集、更快、更個性化的電信服務,由此也就知道用戶的使用規律、痛點、服務軟肋在哪裡。一個如影隨形的高端服務並非由無數服務員在所有用戶可能出現的地方等待,而是由一個聰明的服務員在用戶需要的時候及時出現。未來的網絡技術,如軟件定義網絡(SDN),就更需要大數據的支持:SDN 的大腦可以根據網絡大數據的深度挖掘所產生的修改,而變得越來越聰明。


十問大數據到底為何物?


Q6:大數據和雲計算、物聯網是什麼關係?

如果把整個IT 流程看做一棵樹的話,物聯網就是這棵樹的葉子和枝幹。如果傳感器網絡所感知的信息是有關“人”的信息,比如用戶在網上購買商品的信息,或與人的移動行為和動機相關的信息,那麼它就會有極大的商業價值,對這種數據的需求也會劇增。人的心理因素是世上最複雜的,對應著某種動機和意識的行為、動作也千差萬別。人與人的關係組成了無窮多的維度,而大數據正是這些維度疊加而成的。這些數據不僅包括人本身的語言、文字、動作、視覺數據,更是人與人之間關係的數據。凡是與人相關的活動數據,都是最值得收集的數據,與之相關的需求則永遠存在。

所以說,關於人的數據才是大數據。物聯網只有考慮到人這種廣義的“物”,才最有價值。否則,物聯網所傳輸的數據無論從複雜度還是商業目的而言,都極為有限。

大數據和雲計算的關係則在於,大數據的成功應用除了“大”,還有三個必要條件:實時在線、對事件的全面描述以及產生差異化的效果。雲計算使得這三個必要條件得以滿足。


十問大數據到底為何物?


首先,雲計算使人們可以隨時隨地使用存儲和計算,使大量數據得以及時被採集和分析。手機上APP應用雲的服務就是一個雲計算的例子。由於存儲和計算成本的降低,雲計算起到了實時在線的作用, 從而使得更多的人願意使用雲服務,大數據的雪球由此可以滾動起來。

雲計算的另一個好處是可以實現大規模的數據整合。當今世界並不是為大數據應用準備的,因為大量數據集散落在不同地方,以不同方式存放,其擁有者也是不同的人。在雲計算條件下,很多大規模數據整合的問題都會得到解決。當大家數據放在一起時,數據整合的門檻會大幅降低,因此,大數據也會像核物理的聚變一樣,產生成倍的效果。

Q7:有了大數據,我們還需要專家嗎?

在大數據時代,專家的一部分作用確實可以被大數據應用所取代。例如,推薦金融產品時,專家需要將特定金融產品推薦給特定客戶。這些客戶有以下特點:接受這一推薦的可能性很高,同時,對其他客戶的影響力也很強,在接受這一產品的同時,他們很有可能會把產品消息向親朋好友傳播。這一重要的市場工作過去是由專業的市場部門經理來完成的。然而在大數據應用中,通過對大數據的整合分析得出的大規模推薦模型的推薦效果,是市場部專家的二十倍以上。

這個例子說明:首先,在傳統商業領域,大數據的功效確實能夠取代並超越人的作用。在過去的實踐中,市場專家最多能夠判別十幾維的數據,而數據挖掘模型卻可以處理幾萬維甚至幾千萬維的數據;其次,取得這麼好的效果需要做許多前期工作,如搭建數據平臺、整合不同數據、建立分析預測模型,以及利用模型對未來數據進行分析決策。

這些研究人員具有三個突出特點

一是非常強的駕馭數據管理系統和快速編程的能力,

二是和業務專家溝通並理解業務目標及約束能力、分析數據的能力,

三是與模型連接並預測到業務決策的能力。具有這些能力的人,我們稱其為數據科學家。

所以,有了大數據之後,專家依然是需要的,只不過專家在決策過程中的作用與焦點改變了:專家已經不能獨享成功,而一定要和大數據系統共同完成一項複雜的任務。大數據做了以往專家在數據分析領域的工作,但專家對於專業領域的價值和經驗依舊無法取代。建立數據分析模型需要理解業務及業務目標,這仍需要專家的研究和貢獻,畢竟外行還是不能領導內行。

在此我向大家推薦一個大數據開發交流圈:658558542 裡面整理了一大份學習資料,全都是些乾貨,包括大數據技術入門,大數據離線處理、數據實時處理、Hadoop 、Spark、Flink、推薦系統算法以及源碼解析等,送給每一位大數據小夥伴,讓自學更輕鬆。這裡不止是小白聚集地,還有大牛在線解答!歡迎初學和進階中的小夥伴一起進群學習交流,共同進步!

Q8:大數據最適合做什麼?

大數據的發展和其他任何技術的發展路徑一樣,都需要經過“初始化- 極端膨脹- 較大失望- 理性思考-成功應用”這個逐漸成熟的過程。在歷史上,聽起來先進的技術在這個過程中卻消失的例子比比皆是。那些成功的技術一定要經得起理性的思考和時間的考驗,以找到它們在實踐中最合適的落腳點。

目前,大數據有一個作用可能還沒有被注意到——大數據可以連接大量不同的數據孤島,使得大數據所覆蓋的範圍更大更廣,也使得大數據驅動的業務隨著這個雪球越滾越大。這樣,使用者可以不斷得到新的數據, 而用戶也能不斷得到新的服務。

從現在大數據成功應用的領域來推斷,應用最多的應該是集中在對過去事件的存儲、抽取,以及對不同數據的聚合聯通、總結統計上。大數據聚合的重要作用之一是關聯不同數據之間發生的個別事件。通過連通,實時發現事件真相。有了這樣的數據就可以做以下分析:某個事件在發生的同時還會發生什麼其他事件?如何通過過去數據來預測未來可能發生的事件?如何能夠自動建議,用某種行為來促使某些事件發生,或保證某些事件不發生?等等。


十問大數據到底為何物?


Q9:大數據不能做什麼?

大數據明顯不是萬能的,那麼,大數據不能做什麼呢?

不能替代有效的商業模式。大數據的應用不能沒有商業模式,比如如何在大數據業務中為用戶帶來價值,使得數據成長和商業增長同步等等。而商業模式顯然不是能從大數據本身挖掘的,而是由具備豐富經驗的專家來確定的。

不能沒有領導的決斷力。在今天的大部分公司中,數據的存在形式無異於一個個孤島。把這些數據整合起來不僅是個技術活,還有很強的管理因素。往往在同一個公司的不同部門會有很多競爭,數據就是一個部門的資產。雖然把幾種不同數據聚合在一起會很有價值,但能真正做到這一點的公司卻會發現,要成功做到數據整合需要更高級領導的決斷力。這也是為什麼一些很有前瞻性的公司會專門有一個部門來負責全公司的數據業務。

不能無目的地挖掘。在大數據的初學者當中,有一個普遍的錯覺:當我們有了足夠的數據,就可以在其中漫無目的地找到知識。這樣的錯覺實際上是不科學的。數據挖掘需要約束與目標,否則就是大海撈針,必然是徒勞的。比如,開普勒的成功是建立在以太陽為焦點的橢圓形假設上的。

不能沒有專家。上文提到,大數據在不同應用領域會需要不同的專業知識來指導。而不同的領域, 需要專家們的參與程度也會不同。G o o g l e實驗室有一個在大量圖片和視頻數據中,讓計算機自動識別貓臉的例子。但這樣的深度學習很難推廣到其他大數據的領域。因為,成功的先決條件之一是該領域本身具有非常直觀的層次結構,就像圖片的構成一樣。如果某個領域的數據不具備這樣的層次結構, 就很難用同樣的方法自動發現規律。而這樣一個結構是需要數據科學家來定義的。


十問大數據到底為何物?

不能一次建模, 終生受益。一個好的模型需要不斷更新, 需要終生學習(Lifelong Machine Learning)來不斷改進。例如,在奧巴馬的競選中,科學家建立了一個用戶投票模型,來預測選民可能的立場,而這個模型是每週利用更新的數據來更新一次的。

不擅長做全局性的優化分析

。大數據下的主要數據處理方法是“分而治之”,即把大的數據分為小塊,一塊一塊地處理,然後再把結果合併。這個過程也許要經過很多次,但總的思想是這樣分化、合併之後的結果,與全局計算的結果是一樣的。但是,還有很多問題是不能這樣來解決的。比如,在下圍棋的時候,每一個棋子的目的可能和整個戰略都相關,所以分而治之的想法是行不通的。

不能沒有對其語義的標註。目前只能通過對數據的標識賦予其意義。比如,推薦系統在沒有用戶反饋的情況下效果很差,而通過現有的心理學模型等加強其效果都無效。一般來說,如果試圖從數據中發現知識,則需要大量的數據標註。往往在一個和用戶有直接互動的應用中是可以得到這樣的標識數據的。要得到大量的標識數據,不僅需要一個平臺來承載有用的應用,而且需要一個對人、對大數據系統的雙贏經濟學模型。

不能僅用有偏的數據。數據一定要全面地反映未來, 對各個方面都有所涉及。如果數據是有偏的,則很難對未來進行有效地判斷。

不能保證包含有效的信息。當數據中的關鍵特徵缺失時,大數據就無法矯正數據與現實之間的偏差,尤其是對於那種與人的心理和行為相關的數據,非常容易產生偏差。問題的關鍵是:研究之前,專家並不知道哪些特徵是關鍵特徵。比如股價受到“黑天鵝”事件影響,使得無法用大數據預測關鍵事件發生的概率。這就像一個輸入管道:垃圾輸入導致垃圾輸出。這也是為什麼某些電影的實際票房和從網上評價數據得來的結果是背道而馳的。

不能保證減小噪音。這是因為在大數據裡面,噪音數據的出現往往會以有意義的模式的形式出現,從而騙過知識挖掘系統。這樣,大數據可能帶來更大的噪音。

Q10:後大數據時代的技術趨勢是什麼?

大數據所帶來的變革,只不過是計算機技術為整個人類帶來變革當中的一步。計算機從上世紀五十年代起,就在人類歷史上開始了潛移默化的革命。這個革命的根本標誌就是人類社會和行為的數字化,以及兩個世界(物理世界和虛擬世界)的無縫融合。在這場革命中,人類傳統的行業一個接一個被數字化行業取代:從金融系統到電子商務,從機器人制造到無人駕駛汽車……

所以,大數據變革與人類歷史上其他重要變革是一樣的,需要經過資源( 即大數據)的原始積累,商業和社會服務的差異化,直到人類對虛擬世界的行業、社會進行再規範,以解決數據資源分配。這個歷史過程在上一個工業革命(十八世紀機器革命)時經過了一百多年,但在這一次的革命中,將以更快的形式發生。

以此推論,由大數據引發的下一代技術很可能是更大規模的、面向數字化行業的轉變,這使得現在物理世界裡的眾多傳統行業將全面或部分地轉向數字世界,進行融合。這個轉變也讓許多領域以另一種形式出現,使得許多行業在整體“食物鏈條”上下游有所改變。到了那一天,醫生、科學家和教師等“高大上”行業是否會成為大數據輸送原料的數據採集和解釋分析結果的“工人”?或是成為在大數據驅動下的人工智能機器人的夥伴?這些都引人深思。

感謝您的觀看,如有不足之處,歡迎批評指正。

對大數據感興趣的同學可以關注我,並在後臺私信發送關鍵字:“大數據”即可獲取免費的大數據學習資料。

知識體系已整理好(筆記,PPT,學習視頻),歡迎大家來領取!


分享到:


相關文章: