「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

當今時代,大數據對於企業精細運營起到的價值非常巨大。企業如何運用大數據提升業績,降低運營成本,提高效率,提升客戶體驗是首要關心的問題。

面對廣闊的大數據前景,越來越多的企業已經認識到了大數據所蘊含的重要戰略意義,並紛紛進行戰略部署,以迎接大數據技術革命正在帶來的新的機遇和挑戰。2018年,企業該如何更好地抓住大數據大機遇,有所斬獲呢?

為此,解放號社區攜中軟宅客學院高級講師徐達老師於8月30日20:00為大家親授了【CXO進化營】第1場分享課《深入剖析大數據的內涵與外延》,分享會徐老師主要從大數據現狀、核心技術、案例剖析、大數據趨勢這四個角度來揭開大數據的神秘面紗,讓我們受益良多。

分享嘉賓

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

徐 達 | 中軟宅客學院高級講師、 10年大數據、雲計算專家

☑ 【個人介紹】

北京航空航天大學雲計算專業碩士。10年以上開發經驗,精通Java語言,熟悉大數據開發,熟悉雲計算技術。

☑ 【項目經驗】

大數據移動互聯網廣告項目(Hadoop/Hive/Sqoop等)、中國石油集團管理學院數據挖掘系統、國家金農工程、OA公文自動化辦公系統、北京中債債權交易網站和網上拍賣系統(Struts/Tapestry/Spring/Maven) 、雲平臺搭建(docker/kubernate等)。

馬雲說:互聯網還沒搞清楚的時候,移動互聯就來了,移動互聯還沒搞清楚的時候,大數據就來了。目前,這些概念業界還沒有達成共識,不同背景的專家給出的解釋往往大相徑庭,導致了很多概念滿天飛,讓各大企業無所適從。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

今天,我們花一個小時時間把大數據這個話題探討清楚,通過這門課徹底讀懂大數據。

首先,我拋出幾個問題,大家帶著問題一邊聽課程的講解。

1. 大數據有用嗎?

2. 大數據有什麼作用?

3. 大數據從哪來又去哪?

在解釋大數據內容之前,先給大家講幾個小故事。

(一)

2008年,谷歌推出了一款名為“谷歌流感趨勢”(GoogleFlu Trends)的產品。工程師們假定:一旦人們患上流感,就可能會在搜索引擎上輸入特定的檢索詞條以獲得與流感相關的信息。通過彙總和分析這些檢索詞條,谷歌就能預測流感將在何時何地爆發。2009年,這款產品在甲型H1N1流感爆發幾周前成功預測了其在全美範圍的傳播,反響巨大!一時間,有關大數據開啟公共衛生變革的觀點接踵而來。

(二)

2015年1月29日,馬來西亞民航局宣佈,馬航MH370航班失事,並推定機上所有239名乘客和機組人員已遇難。這個事件可謂震驚了全世界,相信大家對這個新聞並不陌生。而這個數據是誰第一時間推測出來的呢?是英國的發動機公司通過大數據推測出來的結果。

通過以上2個案例,我想大家對於大數據是否有用、有何作用已經有了清晰的答案。

01 什麼是大數據?

既然在高速發展的信息時代,大數據對於企業來說可謂舉足輕重,那什麼是大數據呢?

大數據,指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

業界(IBM 最早定義)將大數據的特徵歸納為5個“V”(量Volume,多樣Variety,價值Value,速度Velocity,真實Veracity)。或者說特點有5個層面:

第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);

第二,數據類型繁多。比如,網絡日誌、視頻、圖片、地理位置信息等等;

第三,價值密度低,商業價值高;

第四,處理速度快;

第五,真實性。

但是隨著大數據技術和應用的發展,人們對這四個V有了新的認識。在《大數據時代》一書中,邁爾-舍恩伯格給出了著名的關於大數據時代的三大特徵:

1) 不是隨機樣本,而是全體數據;

2) 不是精準性,而是混雜性;

3) 不是因果關係,而是相關關係。

02 大數據的現狀

根據Allied Market Research調查報告顯示,2013年至2020年,全球大數據市場份額將以58.2%的年增長率進行增長。

2015年,我國大數據市場規模為1692億元,佔全球大數據市場20.30%,預計2020年全球大數據市場規模將超過10270億美元;屆時我國大數據市場規模將接近13625億元。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

大數據為什麼這麼火呢?為什麼現在很多人張口閉口就說大數據?接下來我們就從大數據的技術範疇來深入分析。

03 大數據技術體系

現如今,大數據技術體系太龐雜了,基礎技術覆蓋數據分析挖掘(機器學習、數據分析、BI數據倉庫)、數據可視化、Linux與編程語言(Java、Python、Scala)、大數據框架(目kafka、Hadoop生態、Spark生態、ElasticSrarch生態、Storm)等各種技術範疇和不同的層面。另外大數據應用領域廣泛,各領域採用技術的差異性還是比較大的。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

總之,大數據涉及範圍太大,其終極目標是利用上述一系列核心技術實現海量數據條件下的人類深度洞察和決策智能化。

在這裡,我重點講解下大數據框架。

1.Hadoop生態

經過長時間的發展,Hadoop(目前成為主要的生態之一)已經形成了自己的生態體系。

有些框架是諸如一些大公司如Yahoo, Facebook團隊所開發的,我們來看一下它的生態圖:

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

目前,互聯網應用典型架構如下所示:

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

阿里Hadoop應用

中國超大規模的Hadoop集群是淘寶。

目前,淘寶單個Hadoop集群數量超3000個節點,同級別集群數量有2~3個,它還有一個很美麗的名字:“雲梯”,支付寶的集群規模700臺節點,使用HBase對用戶的消費記錄可以實現毫秒級查詢。淘寶的Hadoop應用框架總覽如下圖所示:

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

2. Spark生態

隨著大數據技術的發展,實時流計算、機器學習、圖計算等領域成為較熱的研究方向,而Spark作為大數據處理的“利器”有著較為成熟的生態圈,能夠一站式解決類似場景的問題。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

3. ElasticSearch生態

Elasticsearch是一個建立在全文搜索引擎 Apache Lucene™ 基礎上的搜索引擎,可以說Lucene是當今最先進,最高效的全功能開源搜索引擎框架。它可以幫助你用前所未有的速度去處理大規模數據。它可以用於全文搜索,結構化搜索以及分析。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

4.Storm框架

目前對於流式數據實時處理方案主要有2種:Storm、Spark Streaming。

Storm框架:根據進來的每一條數據進行實時處理,處理數據的速度實現毫秒級別,目前阿里巴巴將Storm進行優化封裝推出了JStorm。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

Spark Streaming:根據進來的數據進行批次處理,並按時間間隔進行劃分,時間間隔比較短,運行延遲性在毫秒到秒級別。其中Spark 2.2.x的延遲性降低到100ms以內。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

04 大數據經典應用

2018年,大數據熱門應用領域主要分為:健康醫療、金融、物聯網工業製造、城鎮化/智慧城市、互聯網。

1)健康醫療應用

如今,大數據應用最多的領域應該要屬醫療了,應用案例可謂數不勝數。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

在以前,想必大家都知道掛號特別艱難,導致黃牛很多,醫療成本增加,自從通過大數據實現在線掛號,醫療成本得到了大幅度降低,便利了我們的生活。

健康醫療大數據是信息化企業未來的發展方向,目前如東軟、東華、方正以及還要一些醫院本身也在研究醫療大數據。隨著數據連接、人工智能、機器人、3D打印等新技術的創新與應用,將為健康醫療大數據提供更全面有效的應用基礎支持,在全球經濟、技術一體化的今天,中國醫療健康行業已經開啟了大數據的起航之旅,未來大數據將在醫療健康領域市場規模佔有越來越高的市場份額。

2)金融應用

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延

在金融領域,目前主要使用進行如下應用:

1)企業風控領域;

2)智能投顧;

3)智能客服;

4)實時營銷推薦與風控。

05 大數據發展趨勢

縱觀大數據的發展趨勢,我認為主要為以下4個方面:

1.算法當道

ü 機器學習技術更加成熟,成為大數據智能分析核心技術;

ü 人工智能+大數據,成為大數據分析領域熱點。

2.數據科學興起

ü 數據科學家逐漸分工明細、成熟;

ü 重視數據分析應用建設及數據治理;

ü 多數據源融合分析成為趨勢;

ü New BI系統逐漸普及。

3.數據智能化成為趨勢

ü 文本、圖像、結構化數據的語義化和知識化成為趨勢;

ü 基於知識圖譜的大數據應用成為熱門;

ü 大數據預測與決策輔助成為應用方向。

4. 數據安全逐漸成為企業關心重點

在企業中計算機被普遍運用,數據安全也逐漸成為一個重點課題。數據是任何企業的命脈,例如電子郵件、財務報表和員工檔案等都是公司的重點數據,沒有它們就無法順利運作。

因此,企業如何保護“信息資產”成為數據安全的重中之重。

THE END

牆裂推薦【CXO進化營】中國軟件10強企業專家在線分享的《從技術到管理,如何打造IT服務企業核心競爭力?》,5位知名專家,7節能力提升課,價值299元的系列課程,限時免費,精彩不容錯過。

「CXO進化營」第1期分享:深入剖析大數據的內涵與外延


分享到:


相關文章: