大數據是什麼?這一篇文章告訴你

大數據是什麼#

大數據本身是一個抽象的概念。從一般意義上講,大數據是指無法在有限時間內用常規軟件工具對其進行獲取、存儲、管理和處理的數據集合。轉發+關注,私信小編“資料”免費分享資料給你!

目前,業界對大數據還沒有一個統一的定義,但是大家普遍認為,大數據具備 Volume、Velocity、Variety 和 Value 四個特徵,簡稱“4V”,即數據體量巨大、數據速度快、數據類型繁多和數據價值密度低,如圖 1 所示。下面分別對每個特徵作簡要描述。

大數據特徵

大數據是什麼?這一篇文章告訴你

Volume:表示大數據的數據體量巨大。#

數據集合的規模不斷擴大,已經從 GB 級增加到 TB 級再增加到 PB 級,近年來,數據量甚至開始以 EB 和 ZB 來計數。

例如,一箇中型城市的視頻監控信息一天就能達到幾十 TB 的數據量。百度首頁導航每天需要提供的數據超過 1-5PB,如果將這些數據打印出來,會超過 5000 億張 A4 紙。圖 2 展示了每分鐘互聯網產生的各類數據的量。

互聯網每分鐘產生的數據

大數據是什麼?這一篇文章告訴你

Velocity:表示大數據的數據產生、處理和分析的速度在持續加快。#

加速的原因是數據創建的實時性特點,以及將流數據結合到業務流程和決策過程中的需求。數據處理速度快,處理模式已經開始從批處理轉向流處理。

業界對大數據的處理能力有一個稱謂——“ 1 秒定律”,也就是說,可以從各種類型的數據中快速獲得高價值的信息。大數據的快速處理能力充分體現出它與傳統的數據處理技術的本質區別。

Variety:表示大數據的數據類型繁多。#

傳統 IT 產業產生和處理的數據類型較為單一,大部分是結構化數據。隨著傳感器、智能設備、社交網絡、物聯網、移動計算、在線廣告等新的渠道和技術不斷湧現,產生的數據類型無以計數。

現在的數據類型不再只是格式化數據,更多的是半結構化或者非結構化數據,如 XML、郵件、博客、即時消息、視頻、照片、點擊流、 日誌文件等。企業需要整合、存儲和分析來自複雜的傳統和非傳統信息源的數據,包括企業內部和外部的數據。

Value:表示大數據的數據價值密度低。#

大數據由於體量不斷加大,單位數據的價值密 度在不斷降低,然而數據的整體價值在提高。以監控視頻為例,在一小時的視頻中,有用的數據可能僅僅只有一兩秒,但是卻會非常重要。現在許多專家已經將大數據等同於黃金和石油,這表示大數據當中蘊含了無限的商業價值。

根據中商產業研究院發佈的《2018-2023 年中國大數據產業市場前景及投資機會研究報告》顯示,2017 年中國大數據產業規模達到 4700 億元,同比增長 30%。隨著大數據在各行業的融合應用不斷深化,預計 2018 年中國大數據市場產值將突破 6000 億元達到 6200 億元。

通過對大數據進行處理,找出其中潛在的商業價值,將會產生巨大的商業利潤。

大數據時代是什麼意思#

近年來,信息技術迅猛發展,尤其是以互聯網、物聯網、信息獲取、社交網絡等為代表的技術日新月異,促使手機、平板電腦、pc 等各式各樣的信息傳感器隨處可見,虛擬網絡快速發展,現實世界快速虛擬化,數據的來源及其數量正以前所未有的速度增長。

伴隨著雲計算、大數據、物聯網、人工智能等信息技術的快速發展和傳統產業數字化的轉型,數據量呈現幾何級增長,根據市場研究資料顯示,全球數據總量將從 2016 年的 16.1ZB 增長到 2025 年的 163ZB (約合 180 萬億 GB),十年內將有 10 倍的增長,複合增長率為 26%,如圖 1 所示。

若以現有的藍光光盤為計量標準,那麼 40ZB 的數據全部存入藍光光盤,所需要的光盤總重量將達到 424 艘尼米茲號航母的總重量。而這些數據中,約 80% 是非結構化或半結構化類型的數據,甚至更有一部分是不斷變化的流數據。因此,數據的爆炸性增長態勢,以及其數據構成特點使得人們進入了“大數據”時代。

大數據是什麼?這一篇文章告訴你

如今,大數據已經被賦予多重戰略含義。

在資源的角度,數據被視為“未來的石油”,被作為戰略性資產進行管理。

在國家治理角度,大數據被用來提升治理效率,重構治理模式,破解治理難題,它將掀起一場國家治理革命。

在經濟增長角度,大數據是全球經濟低迷環境下的產業亮點,是戰略新興產業的最活躍部分。

在國家安全角度,全球數據空間沒有國界邊疆,大數據能力成為大國之間博弈和較量的利器。

總之,國家競爭焦點將從資本、土地、人口、資源轉向數據空間,全球競爭版圖將分成新的兩大陣營:數據強國與數據弱國。

從宏觀上看,由於大數據革命的系統性影響和深遠意義,主要大國快速做出戰略響應,將大數據置於非常核心的位置,推出國家級創新戰略計劃。

美國 2012 年發佈了《大數據研究和發展計劃》,併成立“大數據高級指導小組”,2013 年又推出“數據一知識一行動”計劃,2014 年進一步發佈《大數據:把握機遇,維護價值》政策報告,啟動“公開數據行動”,陸續公開 50 個門類的政府數據,鼓勵商業部門進行開發和創新。

歐盟正在力推《數據價值鏈戰略計劃》;英國發布了《英國數據能力發展戰略規劃》;日本發佈了《創建最尖端 IT 國家宣言》;韓國提出了“大數據中心戰略”。中國多個省市發佈了大數據發展戰略,國家層面的《關於促進大數據發展的行動綱要》也於 2015 年 8 月 19 日正式通過。

從微觀上看,大數據重塑了企業的發展戰略和轉型方向。

美國的企業以 GE 提出的“工業互聯網”為代表,提出智能機器、智能生產系統、智能決策系統,將逐漸取代原有的生產體系,構成一個“以數據為核心”的智能化產業生態系統。

德國的企業以“工業 4.0”為代表,要通過信息物理系統(Cyber Physical System, CPS)把一切機器、物品、人、服務、建築統統連接起來,形成一個高度整合的生產系統。

中國的企業以阿里巴巴提出的“DT 時代”(Data Technology)為代表,認為未來驅動發展的不再是石油、鋼鐵,而是數據。

這 3 種新的發展理念可謂異曲同工、如出一轍,共同宣告“數據驅動發展”成為時代主題。

與此同時,大數據也是促進國家治理變革的基礎性力量。正如《大數據時代》的作者舍恩伯格在定義中所強調的:“大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模數據的基礎上是無法完成的。”

在國家治理領域,大數據為解決以往的“頑疾”和 “痛點”,提供了強大支撐,如建設陽光政府、責任政府、智慧政府;大數據使以往無法實現的環節變得簡單、可操作,如精準醫療、個性化教育、社會監管、輿情監測預警。

大數據也使一些新的主題成為國家治理的重點,如維護數據主權、開放數據資產、保持在數字空間的國家競爭力等。

中國具備成為數據強國的優勢。中國的數據量在 2013 年已達到 576EB,到 2020 年這個數字將會達到 8.06ZB,增長超過 12 倍。

從全球佔比來看,中國成為數據強國的潛力極為突岀,2010 年中國數據佔全球數據的比例為 10%,2013 年佔比為 13%,2020 年佔比將達到 18%。

大數據是什麼?這一篇文章告訴你

屆時,中國的數據規模將超過美國位居世界第一。中國成為數據大國並不奇怪,因為中國是人口大國、製造業大國、互聯網大國、物聯網大國,這都是最活躍的數據生產主體,未來幾年,中國成為數據大國也是邏輯上的必然結果。

大數據的產生和作用(詳細分析)#

從採用數據庫作為數據管理的主要方式開始,人類社會的數據產生方式大致經歷了 3 個階段,而正是數據產生方式的巨大變化才最終導致大數據的產生。

運營式系統階段。#

數據庫的出現使得數據管理的複雜度大大降低,在實際使用中,數據庫大多為運營系統所採用,作為運營系統的數據管理子系統,如超市的銷售記錄系統、銀行的交易記錄系統、醫院病人的醫療記錄等。

人類社會數據量的第一次大的飛躍正是在運營式系統開始廣泛使用數據庫時開始的。這個階段的最主要特點是,數據的產生往往伴隨著一定的運營活動;而且數據是記錄在數據庫中的,例如,商店每售出一件產品就會在數據庫中產生一條相應的銷售記錄。這種數據的產生方式是被動的。

互聯網的誕生促使人類社會數據量出現第二次大的飛躍,但是真正的數據爆發產生於 Web 2.0 時代,而 Web 2.0 的最重要標誌就是用戶原創內容。這類數據近幾年一直呈現爆炸性的增長。

主要有以下兩個方面的原因。

是以博客、微博和微信為代表的新型社交網絡的岀現和快速發展,使得用戶產生數據的意願更加強烈。

是以智能手機、平板電腦為代表的新型移動設備的出現,這些易攜帶、全天候接入網絡的移動設備使得人們在網上發表自己意見的途徑更為便捷。這個階段的數據產生方式是主動的。

感知式系統階段。#

人類社會數據量第三次大的飛躍最終導致了大數據的產生,今天我們正處於這個階段。這次飛躍的根本原因在於感知式系統的廣泛使用。

隨著技術的發展,人們已經有能力製造極其微小的帶有處理功能的傳感器,並開始將這些設備廣泛地佈置於社會的各個角落,通過這些設備來對整個社會的運轉進行監控。這些設備會源源不斷地產生新數據,這種數據的產生方式是自動的。

簡單來說,數據產生經歷了被動、主動和自動三個階段。這些被動、主動和自動的數據共同構成了大數據的數據來源,但其中自動式的數據才是大數據產生的最根本原因。

大數據的作用

大數據雖然孕育於信息通信技術,但它對社會、經濟、生活產生的影響絕不限於技術層面。更本質上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基於數據分析,而不是像過去更多憑藉經驗和直覺。具體來講,大數據將有以下作用。

對大數據的處理分析正成為新一代信息技術融合應用的結點。#

移動互聯網、物聯網、社交網絡、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。

雲計算為這些海量、多樣化的大數據提供存儲和運算平臺。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值,大數據具有催生社會變革的能量。

大數據是信息產業持續高速增長的新引擎。#

面向大數據市場的新技術、新產品、新服務、新業態會不斷湧現。

在硬件與集成設備領域,大數據將對芯片、存儲產業產生重要影響,還將催生出一體化數據存儲處理服務器、內存計算等市場。

在軟件與服務領域,大數據將引發數據快速處理分析技術、數據挖掘技術和軟件產品的發展。

大數據利用將成為提高核心競爭力的關鍵因素。#

各行各業的決策正在從“業務驅動”向“數據驅動”轉變。

在商業領域,對大數據的分析可以使零售商實時掌握市場動態並迅速做出應對,可以為商家制定更加精準有效的營銷策略提供決策支持,可以幫助企業為消費者提供更加及時和個性化的服務。

在醫療領域,可提高診斷準確性和藥物有效性。

在公共事業領域,大數據也開始發揮促進經濟發展、維護社會穩定等方面的重要作用。

大數據時代,科學研究的方法手段將發生重大改變。#

例如,抽樣調查是社會科學的基本研究方法,在大數據時代,研究人員可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。

大數據時代的10個重大變化#

大數據是什麼?這一篇文章告訴你

對研究範式的新認識:從第三範式到第四範式#

2007 年 1 月,圖靈獎得主、關係型數據庫鼻祖 JimGray 發表演講,他憑著自己對於人類科學發展特徵的深刻洞察,敏銳地指出科學的發展正在進入“數據密集型科學發現範式”——科學史上的“第四範式”。

在他看來,人類科學研究活動已經歷過三種不同範式的演變過程。

“第一範式”是指原始社會的“實驗科學範式”。18 世紀以前的科學進步均屬於此列,其核心特徵是對有限的客觀對象進行觀察、總結、提煉,用歸納法找出其中的科學規律,如伽利略提出的物理學定律。

“第二範式”是指 19 世紀以來的理論科學階段,以模型和歸納為特徵的“理論科學範式”。其核心特徵是以演繹法為主,憑藉科學家的智慧構建理論大廈,如愛因斯坦提出的相對論、麥克斯方程組、量子理論和概率論等。

“第三範式”是指 20 世紀中期以來的計算科學階段的“計算科學範式”。面對大量過於複雜的現象,歸納法和演繹法都難以滿足科學研究的需求,人類開始藉助計算機的高級運算能力對複雜現象進行建模和預測,如天氣、地震、核試驗、原子的運動等。

然而,隨著近年來人類採集數據量的爆炸性增長,傳統的計算科學範式已經越來越無力駕馭海量的科研數據了。例如,歐洲的大型粒子對撞機、天文領域的 Pan-STARRS 望遠鏡每天產生的數據多達幾千萬億字節(PB)。很明顯,這些數據已經突破了“第三範式”的處理極限,無法被科學家有效利用。

正因為如此,目前正在從“計算科學範式”轉向“數據密集型科學發現範式”。

“第四範式”的主要特點是科學研究人員只需要從大數據中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數據時代,天文學家的研究方式發生了新的變化,其主要研究任務變為從海量數據庫中發現所需的物體或現象的照片,而不再需要親自進行太空拍照。

對數據重要性的新認識:從數據資源到數據資產#

在大數據時代,數據不僅是一種“資源”,更是一種重要的“資產”。因此,數據科學應把數據當作一種“資產”來管理,而不能僅僅當作“資源”來對待。也就是說,與其他類型的資產相似,數據也具有財務價值,且需要作為獨立實體進行組織與管理。

大數據時代的到來,讓“數據即資產”成為最核心的產業趨勢。在這個“數據為王”的時代,回首信息產業發展的起起伏伏,我們發現產業興衰的決定性因素,已不是土地、人力、技術、資本這些傳統意義上的生產要素,而是曾經被一度忽視的“數據資產”。

世界經濟論壇報告曾經預測稱,“未來的大數據將成為新的財富高地,其價值可能會堪比石油”,而大數據之父維克托也樂觀地表示,“數據列入企業資產負債表只是時間問題”。

“數據成為資產”是互聯網泛在化的一種資本體現,它讓互聯網不僅具有應用和服務本身的價值,而且具有了內在的“金融”價值。數據不再只是體現於“使用價值”方面的產品,而成為實實在在的“價值”。

目前,作為數據資產先行者的 IT 企業,如蘋果、谷歌、IBM、阿里、騰訊、百度等,無不想盡各種方式,挖掘多種形態的設備及軟件功能,收集各種類型的數據,發揮大數據的商業價值,將傳統意義上的 IT 企業,打造成為“終端+應用+平臺+數據”四位一體的泛互聯網化企業,以期在大數據時代獲取更大的收益。

大數據資產的價值的衡量尺度主要有以下 3 個方面的標準。

獨立擁有及控制數據資產#

目前,數據的所有權問題在業界還比較模糊。從擁有和控制的角度來看,數據可以分為 Ⅰ 型數據、Ⅱ 型數據和 Ⅲ 型數據。

Ⅰ 型數據主要是指數據的生產者自己生產出來的各種數據,例如,百度對使用其搜索引擎的用戶的各種行為進行收集、整理和分析,這類數據雖然由用戶產生,但產權卻屬於生產者,並最大限度地發揮其商業價值。

Ⅱ 型數據又稱為入口數據,例如,各種電子商務營銷公司通過將自身的工具或插件植入電商平臺,來為其提供統計分析服務,並從中獲取各類經營數據。雖然這些數據的所有權並不屬於這些公司,在使用時也有一些規則限制,但是它們卻有著對數據實際的控制權。

相比於前兩類數據,Ⅲ 型數據的產權情況比較複雜,它們主要依靠網絡爬蟲,甚至是黑客手段獲取數據。與 Ⅰ 型和 Ⅱ 型數據不同的是,這些公司流出的內部數據放在網上供人付費下載。這種數據在當前階段,還不能和資產完全畫等號。

計量規則與貨幣資本類似#

大數據要實現真正的資產化,用貨幣對海量數據進行計量是一個大問題。儘管很多企業都意識到數據作為資產的可能性,但除了極少數專門以數據交易為主營業務的公司外,大多數公司都沒有為數據的貨幣計量做出適當的賬務處理。

雖然數據作為資產尚未在企業財務中得到真正的引用,但將數據列入無形資產比較有利。

考慮到研發因素,很多高科技企業都具有較長的投入產出期,可以讓那些存儲在硬盤上的數據直接進入資產負債表。對於通過交易手段獲得的數據,可以按實際支付價款作為入賬價值計入無形資產,從而為企業形成有效稅盾,降低企業實際稅負。

具有資本一般的增值屬性#

資本區別於一般產品的特徵在於,它具有不斷增值的可能性。只有能夠利用數據、組合數據、轉化數據的企業,他們手中的大數據資源才能成為數據資產。

目前,直接利用數據為企業帶來經濟利益的方法主要有數據租售、信息租售、數據使能三種模式。

數據租售主要通過對業務數據進行收集、整理、過濾、校對、打包、發佈等一系列操作,實現數據內在的價值。

信息租售則通過聚焦行業焦點,收集相關數據,深度整合、萃取及分析,形成完整數據鏈條,實現數據的資產轉化。

數據使能是指類似於阿里這樣的互聯網公司通過提供大量的金融數據挖掘及分析服務,為傳統金融行業難以下手的小額貸款業務開創新的行業增長點。

總而言之,作為信息時代核心的價值載體,大數據必然具有朝向價值本體轉化的趨勢,而它的“資產化”,或者未來更進一步的“資本化”蛻變,將為未來完全信息化、泛互聯網化的商業模式打下基礎。

對方法論的新認識:從基於知識到基於數據#

傳統的方法論往往是“基於知識”的,即從“大量實踐(數據)”中總結和提煉出一般性知識(定理、模式、模型、函數等)之後,用知識去解決(或解釋)問題。因此,傳統的問題解決思路是“問題→知識→問題”,即根據問題找“知識”,並用“知識”解決“問題”。

然而,數據科學中興起了另一種方法論——“問題→數據→問題”,即根據“問題”找“數據”,並直接用“數據”(在不需要把“數據”轉換成“知識”的前提下)解決“問題”.

大數據是什麼?這一篇文章告訴你

對數據分析的新認識:從統計學到數據科學#

在傳統科學中,數據分析主要以數學和統計學為直接理論工具。但是,雲計算等計算模式的出現及大數據時代的到來,提升了我們對數據的獲取、存儲、計算與管理能力,進而對統計學理論與方法產生了深遠影響。大數據帶給我們 4 個顛覆性的觀念轉變。

不是隨機樣本,而是全體數據#

在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機採樣。

以前我們通常把隨機採樣看成是理所應當的限制,但是真正的大數據時代是指不用隨機分析法這樣的捷徑,而採用對所有數據進行分析的方法,通過觀察所有數據,來尋找異常值進行分析。

例如,信用卡詐騙是通過異常情況來識別的,只有掌握了所有數據才能做到這一點。在這種情況下,異常值是最有用的信息,可以把它與正常交易情況作對比從而發現問題。

不是純淨性,而是混雜性#

數據量的大幅增加會造成一些錯誤的數據混進數據集。但是,正因為我們掌握了幾乎所有的數據,所以我們不再擔心某個數據點對整套分析的不利影響。

我們要做的就是要接受這些紛繁的數據並從中受益,而不是以高昂的代價消除所有的不確定性。這就是由“小數據”到“大數據”的改變。

不是精確性,而是趨勢#

研究數據如此之多,以至於我們不再熱衷於追求精確度。之前需要分析的數據很少,所以我們必須儘可能精確地量化我們的記錄,但隨著規模的擴大,對精確度的痴迷將減弱。

擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力。

例如,微信朋友圈中朋友發動態的時間,在一小時以內的會顯示多少分鐘之前,在一小時以外的就只顯示幾小時前;微信公眾號中顯示的閱讀量,超過十萬以後顯示的就是 100000+,而不是具體數據,因為超過十萬的閱讀量已經讓我們覺得這篇文章很優秀了,沒必要精確。

不是因果關係,而是相關關係#

在數據科學中,廣泛應用“基於數據”的思維模式,重視對“相關性”的分析,而不是等到發現“真正的因果關係”之後才解決問題。

在大數據時代,人們開始重視相關分析,而不僅僅是因果分析。我們無須再緊盯事物之間的因果關係,而應該尋找事物之間的相關關係。相關關係也許不能準確地告訴我們某件事情為何會發生,但是它會告訴我們某件事情已經發生了。

在大數據時代,我們不必非得知道現象背後的原因,而是要讓數據自己發聲。知道是什麼就夠了,沒必要知道為什麼。例如,知道用戶對什麼感興趣即可,沒必要去研究用戶為什麼感興趣。

相關關係的核心是量化兩個數據值之間的數據關係。相關關係強是指當一個數據值增加時,其他數據值很有可能也會隨之增加。相關關係是通過識別關聯物來幫助我們分析某一現象的,而不是揭示其內部的運作。

通過找到一個現象良好的關聯物,相關關係可以幫助我們捕捉現在和預測未來。例如,如果川和萬經常一起發生,我們只需要注意方是否發生,就可以預測力是否也發生了。

對計算智能的新認識:從複雜算法到簡單算法#

“只要擁有足夠多的數據,我們可以變得更聰明”是大數據時代的一個新認識。因此,在大數據時代,原本複雜的“智能問題”變成簡單的“數據問題”。

只要對大數據進行簡單查詢就可以達到“基於複雜算法的智能計算的效果”。為此,很多學者曾討論過一個重要話題——“大數據時代需要的是更多的數據還是更好的模型?”

機器翻譯是傳統自然語言技術領域的難點,雖曾提出過很多種算法,但應用效果並不理想。IBM 有能力將《人民日報》歷年的文本輸入電腦,試圖破譯中文的語言結構。

例如,實現中文的語音輸入或者中英互譯,這項技術在 20 世紀 90 年代就取得突破,但進展緩慢,在應用中還是有很多問題。近年來,Google 翻譯等工具改變了“實現策略”,不再依靠複雜算法進行翻譯,而是通過對他們之前收集的跨語言語料庫進行簡單查詢的方式,提升了機器翻譯的效果和效率。

他們並不教給電腦所有的語言規則,而是讓電腦自己去發現這些規則。電腦通過分析經過人工翻譯的數以千萬計的文件來發現其中的規則。這些翻譯結果源自圖書、各種機構(如聯合國)及世界各地的網站。

他們的電腦會掃描這些語篇,從中尋找在統計學上非常重要的模式,即翻譯結果和原文之間並非偶然產生的模式。一旦電腦找到了這些模式,今後它就能使用這些模式來翻譯其他類似的語篇。

通過數十億次重複使用,就會得出數十億種模式及一個異常聰明的電腦程序。但是對於某些語言來說,他們能夠使用到的已翻譯完成的語篇非常少,因此 Google 的軟件所探測到的模式就相對很少。這就是為什麼 Google 的翻譯質量會因語言對的不同而不同。

通過不斷向電腦提供新的翻譯語篇,Google 就能讓電腦更加聰明,翻譯結果更加準確。

對管理目標的新認識:從業務數據化到數據業務化#

在傳統數據管理中,企業更加關注的是業務的數據化問題,即如何將業務活動以數據方式記錄下來,以便進行業務審計、分析與挖掘。

在大數據時代,企業需要重視一個新的課題——數據業務化,即如何“基於數據”動態地定義、優化和重組業務及其流程,進而提升業務的敏捷性,降低風險和成本。業務數據化是前提,而數據業務化是目標。

電商的經營模式與實體店最本質的區別是,電商每賣出一件產品,都會留存一條詳盡的數據記錄。也正是因為可以用數字化的形式保留每一筆銷售的明細,電商可以清楚地掌握每一件商品到底賣給了誰。

此外,依託互聯網這個平臺,電商還可以記錄每一個消費者的鼠標單擊記錄、網上搜索記錄。所有這些記錄形成了一個關於消費者行為的實時數據閉環,通過這個閉環中源源不斷產生的新鮮數據,電商可以更好地洞察消費者,更及時地預測其需求的變化,經營者和消費者之間因此產生了很強的黏性。

線下實體商店很難做到這一點,他們可能只知道一個省、一個市或者一個地區賣了多少商品,但是,他們很難了解到所生產、經營的每一件商品究竟賣到了哪一個具體的地方、哪一個具體的人,這個人還買了其他什麼東西、查看了哪些商品、可能會喜歡什麼樣的商品。

也就是說,線下實體店即使收集了一些數據,但其數據的粒度、寬度、廣度和深度都非常有限。由於缺乏足夠的數據,實體店對自己的經營行為,對消費者的洞察力,以及和消費者之間的黏性都十分有限。

就此而言,一家電商和一家線下實體店最本質的區別就是是否保存了足夠的數據。其實,這正是互聯網化的核心和本質,即“數據化”。這並不是一個簡單的數據化,而是所有業務的過程都要數據化,即把所有的業務過程記錄下來,形成一個數據的閉環,這個閉環的實時性和效率是關鍵的指標。這個思想就是一切業務都要數據化。

在大數據時代,企業不僅僅是把業務數據化,更重要的是把數據業務化,也就是把數據作為直接生產力,將數據價值直接通過前臺產品作用於消費者。

數據可以反映用戶過去的行為軌跡,也可以預測用戶將來的行為傾向。比較好理解的一個實例就是關聯推薦,當用戶買了一個商品之後,可以給用戶推薦一個最有可能再買的商品。個性化是數據作為直接生產力的一個具體體現。

隨著數據分析工具與數據挖掘渠道的日益豐富與多樣化,數據存量越來越大,數據對企業也越來越重要。數據業務化能夠給企業帶來的業務價值主要包括以下幾點:提高生產過程的資源利用率,降低生產成本;根據商業分析提高商業智能的準確率,降低傳統“憑感覺”做決策的業務風險;動態價格優化利潤和增長;獲取優質客戶。

目前,越來越多的企業級用戶已經考慮從批量分析向近實時分析發展,從而提高 IT 創造價值的能力。同時,數據分析在快速從商業智能向用戶智能發展。數據業務化可以讓數據給企業創造額外收益和價值。

對決策方式的新認識:從目標驅動型到數據驅動型#

傳統科學思維中,決策制定往往是“目標”或“模型”驅動的,也就是根據目標(或模型)進行決策。然而,大數據時代出現了另一種思維模式,即數據驅動型決策,數據成為決策制定的主要“觸發條件”和“重要依據”。

小數據時代,企業討論什麼事情該做不該做,許多時候是憑感覺來決策的,流程如圖所示,由兩個環節組成:一個是拍腦袋,另一個是研發功能。

大數據是什麼?這一篇文章告訴你

基本上就是產品經理通過一些調研,想了一個功能,做了設計。下一步就是把這個功能研發出來,然後看一下效果如何,再做下一步。

整個過程都是憑一些感覺來決策。這種方式總是會出現問題,很容易走一些彎路,很有可能做出錯誤的決定。

數據驅動型決策加入了數據分析環節,如圖所示。

大數據是什麼?這一篇文章告訴你

基本流程就是企業有一些點子,通過點子去研發這些功能,之後要進行數據收集,然後進行數據分析。基於數據分析得到一些結論,然後基於這些結論,再去進行下一步的研發。整個過程就形成了一個循環。在這種決策流程中,人為的因素影響越來越少,而主要是用一種科學的方法來進行產品的迭代。

例如,一個產品的界面到底是綠色背景好還是藍色背景好,從設計的層面考慮,兩者是都有可能的。那麼就可以做一下 A/B 測試。

可以讓 50% 的人顯示綠色背景,50% 的人顯示藍色背景,然後看用戶點擊量。哪個點擊比較多,就選擇哪個。這就是數據驅動,這樣就轉變成不是憑感覺,而是通過數據去決策。

相比於基於本能、假設或認知偏見而做出的決策,基於證據的決策更可靠。通過數據驅動的方法,企業能夠判斷趨勢,從而展開有效行動,幫助自己發現問題,推動創新或解決方案的出現。

對產業競合關係的新認識:從以戰略為中心到以數據為中心#

在大數據時代,企業之間的競合關係發生了變化,原本相互競爭,甚至不願合作的企業,不得不開始合作,形成新的業態和產業鏈。

所謂競合關係,即在競爭中合作,在合作中競爭。它的核心思想主要體現在兩個方面:創造價值與爭奪價值。創造價值是個體之間相互合作、共創價值的過程;爭奪價值則是個體之間相互競爭、分享價值的過程。

競合的思想就是要求所有參與者共同把蛋糕做大,每個參與者最終分得的部分都會相應增加。

傳統的競合關係以戰略為中心,德國寶馬汽車公司和戴姆勒公司旗下的奔馳品牌在整車製造領域存在著品牌競爭,但雙方不僅共同開發、生產及採購汽車零部件,而且在混合動力技術——領域進行研究合作。

為了能夠在激烈的市場競爭中獲取優勢,兩家公司通過競合戰略,互通有無、共享資源,從而在汽車業整體利潤下滑的趨勢下獲得相對較好的收益,最終取得雙贏。

在大數據時代,競合關係是以數據為中心的。數據產業就是從信息化過程累積的數據資源中提取有用信息進行創新,並將這些數據創新賦予商業模式。

這種由大數據創新所驅動的產業化過程具有“提升其他產業利潤”的特徵,除了能探索新的價值發現、創造與獲取方式以謀求本身發展外,還能幫助傳統產業突破瓶頸、升級轉型,是一種新的競合關係,而非一般觀點的“新興科技催生的經濟業態與原有經濟業態存在競爭關係”。

所以,數據產業培育圍繞傳統經濟升級轉型,依附傳統行業企業共生髮展,是最好的發展策略。例如,近年來發展火熱的團購,就是數據產業幫助傳統餐飲業、旅遊業和交通行業的升級轉型。提供團購業務的企業在獲得收益的同時,也提高了其他傳統行業的效益。

但是,傳統企業與團購企業也存在著一定的競爭關係。傳統企業在與團購企業合作的過程中,也盡力防止自己的線下業務全部轉為自己不能掌控的團購企業。

團購網站為了能獲得更廣的用戶群、更大的流量來提升自己的市場地位,除了自身擴展商戶和培養網民習慣之外,還紛紛採取了合縱連橫的發展戰略。

聚划算、京東團購、噹噹團購、58 團購等紛紛開放平臺,吸引了千品網、高朋、滿座、窩窩等團購網站的入駐,投奔平臺正在成為行業共識。

對於獨立團購網站來說,入駐電商平臺不僅能帶來流量,電商平臺在實物銷售上的積累對其實物團購也有一定的促進作用。

對數據複雜性的新認識:從不接受到接受數據的複雜性#

在傳統科學看來,數據需要徹底“淨化”和“集成”,計算目的是需要找出“精確答案”,而其背後的哲學是“不接受數據的複雜性”。

然而,大數據中更加強調的是數據的動態性、異構性和跨域等複雜性,開始把“複雜性”當作數據的一個固有特徵來對待,組織數據生態系統的管理目標開始轉向將組織處於混沌邊緣狀態。

在小數據時代,對於數據的存儲與檢索一直依賴於分類法和索引法的機制,這種機制是以預設場域為前提的。這種結構化數據庫的預設場域能夠卓越地展示數據的整齊排列與準確存儲,與追求數據的精確性目標是完全一致的。

在數據稀缺與問題清晰的年代,這種基於預設的結構化數據庫能夠有效地回答人們的問題,並且這種數據庫在不同的時間能夠提供一致的結果。

面對大數據,數據的海量、混雜等特徵會使預設的數據庫系統崩潰。其實,數據的紛繁雜亂才真正呈現出世界的複雜性和不確定性特徵,想要獲得大數據的價值,承認混亂而不是避免混亂才是一種可行的路徑。

為此,伴隨著大數據的湧現,出現了非關係型數據庫,它不需要預先設定記錄結構,而且允許處理各種各樣形形色色參差不齊的數據。

因為包容了結構的多樣性,這些無須預設的非關係型數據庫設計能夠處理和存儲更多的數據,成為大數據時代的重要應對手段。

在大數據時代,海量數據的湧現一定會增加數據的混亂性且會造成結果的不準確性,如果仍然依循準確性,那麼將無法應對這個新的時代。

大數據通常都用概率說話,與數據的混雜性可能帶來的結果錯誤性相比,數據量的擴張帶給我們的新洞察、新趨勢和新價值更有意義。

因此,與致力於避免錯誤相比,對錯誤的包容將會帶給我們更多信息。其實,允許數據的混雜性和容許結果的不精確性才是我們擁抱大數據的正確態度,未來我們應當習慣這種思維。

對數據處理模式的新認識:從小眾參與到大眾協同#

在傳統科學中,數據的分析和挖掘都是具有很高專業素養的“企業核心員工”的事情,企業管理的重要目的是如何激勵和考核這些“核心員工”。

但是,在大數據時代,基於“核心員工”的創新工作成本和風險越來越大,而基於“專家餘(Pro-AmT 的大規模協作日益受到重視,正成為解決數據規模與形式化之間矛盾的重要手段。

大規模生產讓數以百計的人買得起商品,但商品本身卻是一模一樣的。

企業面臨這樣一個矛盾:定製化的產品更能滿足用戶的需求,但卻非常昂貴;與此同時,量產化的商品價格低廉,但無法完全滿足用戶的需求。

如果能夠做到大規模定製,為大量用戶定製產品和服務,則能使產品成本低,又兼具個性化,從而使企業有能力滿足要求,但價格又不至於像手工製作那般讓人無法承擔。

因此,在企業可以負擔得起大規模定製帶來的高成本的前提下,要真正做到個性化產品和服務,就必須對用戶需求有很好的瞭解,這就需要用戶提前參與到產品設計中。

在大數據時代,用戶不再僅僅熱衷於消費,他們更樂於參與到產品的創造過程中,大數據技術讓用戶參與創造與分享成果的需求得到實現。

市場上傳統的著名品牌越來越重視從用戶的反饋中改進產品的後續設計和提高用戶體驗,例如,“小米”這樣的新興品牌建立了互聯網用戶粉絲論壇,讓用戶直接參與到新產品的設計過程之中,充分發揮用戶豐富的想象力,企業也能直接瞭解他們的需求。

大眾協同的另一個方面就是企業可以利用用戶完成數據的採集,如實時車輛交通數據採集商 Inrix。該公司目前有一億個手機端用戶,Inrix 的軟件可以幫助用戶避開堵車,為用戶呈現路的熱量圖。

提供數據並不是這個產品的特色,但值得一提的是,Inrix 並沒有用交警的數據,這個軟件的每位用戶在使用過程中會給服務器發送實時數據,如速度和位置,這樣每個用戶都是探測器。使用該服務的用戶越多,Inrix 獲得的數據就越多,從而可以提供更好的服務。

大數據處理的基本流程:數據抽取與集成+數據分析+數據解釋#

大數據的數據來源廣泛,應用需求和數據類型都不盡相同,但是最基本的處理流程是一致的。

整個大數據的處理流程可以定義為,在合適工具的輔助下,對廣泛異構的數據源進行抽取和集成,將結果按照一定的標準進行統一存儲,然後利用合適的數據分析技術對存儲的數據進行分析,從中提取有益的知識,並利用恰當的方式將結果展現給終端用戶。

具體來講,大數據處理的基本流程可以分為數據抽取與集成、數據分析和數據解釋等步驟。

數據抽取與集成#

大數據的一個重要特點就是多樣性,這就意味著數據來源極其廣泛,數據類型極為繁雜。這種複雜的數據環境給大數據的處理帶來極大的挑戰。

要想處理大數據,首先必須對所需數據源的數據進行抽取和集成,從中提取出數據的實體和關係,經過關聯和聚合之後採用統一定義的結構來存儲這些數據。

在數據集成和提取時,需要對數據進行清洗,保證數據質量及可信性。同時還要特別注意大數據時代數據模式和數據的關係,大數據時代的數據往往是先有數據再有模式,並且模式是在不斷的動態演化之中的。

數據抽取和集成技術並不是一項全新的技術,在傳統數據庫領域此問題就已經得到了比較成熟的研究。隨著新的數據源的湧現,數據集成方法也在不斷的發展之中。

從數據集成模型來看,現有的數據抽取與集成方式可以大致分為 4 種類型:基於物化或 ETL 方法的引擎、基於聯邦數據庫或中間件方法的引擎、基於數據流方法的引擎,以及基於搜索引擎的方法。

數據分析#

數據分析是整個大數據處理流程的核心,大數據的價值產生於分析過程。

從異構數據源抽取和集成的數據構成了數據分析的原始數據。根據不同應用的需求可以從這些數據中選擇全部或部分進行分析。

小數據時代的分析技術,如統計分析、數據挖掘和機器學習等,並不能適應大數據時代數據分析的需求,必須做出調整。大數據時代的數據分析技術面臨著一些新的挑戰,主要有以下幾點。

數據量大並不一定意味著數據價值的增加,相反這往往意味著數據噪音的增多。#

因此,在數據分析之前必須進行數據清洗等預處理工作,但是預處理如此大量的數據,對於計算資源和處理算法來講都是非常嚴峻的考驗。

大數據時代的算法需要進行調整。#

首先,大數據的應用常常具有實時性的特點,算法的準確率不再是大數據應用的最主要指標。

在很多場景中,算法需要在處理的實時性和準確率之間取得一個平衡。其次,分佈式併發計算系統是進行大數據處理的有力工具,這就要求很多算法必須做出調整以適應分佈式併發的計算框架,算法需要變得具有可擴展性。

許多傳統的數據挖掘算法都是線性執行的,面對海量的數據很難在合理的時間內獲取所需的結果。因此需要重新把這些算法實現成可以併發執行的算法,以便完成對大數據的處理。

最後,在選擇算法處理大數據時必須謹慎,當數據量增長到一定規模以後,可以從小量數據中挖掘出有效信息的算法並一定適用於大數據。

數據結果的衡量標準。#

對大數據進行分析比較困難,但是對大數據分析結果好壞的衡量卻是大數據時代數據分析面臨的更大挑戰。

大數據時代的數據量大,類型混雜,產生速度快,進行分析的時候往往對整個數據的分佈特點掌握得不太清楚,從而會導致在設計衡量的方法和指標的時候遇到許多困難。

數據解釋#

數據分析是大數據處理的核心,但是用戶往往更關心對結果的解釋。如果分析的結果正確,但是沒有采用適當的方法進行解釋,則所得到的結果很可能讓用戶難以理解,極端情況下甚至會引起用戶的誤解。

數據解釋的方法很多,比較傳統的解釋方式就是以文本形式輸出結果或者直接在電腦終端上顯示結果。這些方法在面對小數據量時是一種可行的選擇。

但是大數據時代的數據分析結果往往也是海量的,同時結果之間的關聯關係極其複雜,採用傳統的簡單解釋方法幾乎是不可行的。

解釋大數據分析結果時,可以考慮從以下兩個方面提升數據解釋能力。

引入可視化技術。#

可視化作為解釋大量數據最有效的手段之一率先被科學與工程計算領域採用。

該方法通過將分析結果以可視化的方式向用戶展示,可以使用戶更易理解和接受。常見的可視化技術有標籤雲、歷史流、空間信息流等。

讓用戶能夠在一定程度上了解和參與具體的分析過程。#

這方面既可以採用人機交互技術,利用交互式的數據分析過程來引導用戶逐步地進行分析,使得用戶在得到結果的同時更好地理解分析結果的過程,也可以採用數據溯源技術追溯整個數據分析的過程,幫助用戶理解結果

需要觀看 java? web,大數據, 資料的:

老規矩:轉發+關注,私信小編“資料”免費分享資料給你!


分享到:


相關文章: