10.04 大數據分析現狀是什麼,主要的分析技術是什麼?

近年來互聯網的高速發展引領人類進入了一個信息量爆炸性增長的時代。每個人的生活中都充滿了結構化和非結構化的數據。隨著人類生活全面向互聯網轉移,大數據時代將會不可避免的到來!

大數據分析現狀是什麼,主要的分析技術是什麼?

作為全球互聯網的前沿概念,大數據主要包括兩方面特徵:一方面整個社會的信息量急劇增長,另一方面個人可獲取的信息也呈指數增長。從科技發展的角度來看,“大數據”是“數據化”趨勢下的必然產物!並且隨著這一趨勢的不斷深入,在不遠的將來我們將身處於一個“一切都被記錄,一切都被數字化”的時代。

​在這種背景下,對大數據的有效存儲以及良好地分析利用變的越來越急迫。而數據分析能力的高低決定了大數據中價值發現過程的好壞與成敗。本文以大數據時代的數據分析為主題,簡明的闡述了國內大數據分析的發展現狀、大數據的分析模式以及主要的分析技術、大數據時代數據分析的幾個核心概念等相關問題。

1.國內大數據分析的發展現狀

數據分析是數據處理流程的核心,因為數據中所蘊藏的價值就產生於分析的過程。所謂“大數據分析”,其和以往數據分析的最重要的差別在於數據量急劇增長。由於數據量的增長,使得對於數據的存儲、查詢以及分析的要求迅速提高。從實際操作的角度看,“大數據分析”需要通過對原始數據進行分析來探究一種模式,尋找導致現實情況的根源因素,通過建立模型與預測來進行優化,以實現社會運行中各個領域的持續改善與創新。

雖然近兩年來“大數據”的概念越來越多的被媒體以及行業提及,但“大數據分析”在國內的發展卻仍處於初期階段。

從行業實踐的角度看,只有少數幾個行業的部分企業,能夠對大數據進行基本分析和運用,並在業務決策中以數據分析結果為依據。這些行業主要集中在銀行與保險,電信與電商等領域。以銀行業為例,目前大型國有銀行在其主營業務中均引入了數據分析,但深度尚可,廣度不夠,尚未擴充到運營管理的所有領域;而中小銀行在數據分析方面的人員與能力建設尚處於起步階段。對於支撐起我國龐大國民生產總值的建築業、製造業以及貿易行業,其數據分析應用遠遠沒有進入規模化發展階段,這些行業在IT方向的開支主要集中在公司日常的流程化管理領域。

從技術發展的角度看,一些已經較為成熟的數據分析處理技術,例如商業智能技術和數據挖掘技術,已經在多個行業領域裡得到廣泛和深入的應用。最典型的就是電商行業,運用這些技術對行業數據進行分析,對提高行業的整體運行效率以及增加行業利潤都起到了極大的推動作用。但對於像Hadoop、非結構化數據庫、數據可視化工具以及個性化推薦引擎這樣的新技術,其較高的技術門檻和高昂的運營維護成本使得國內只有少數企業能夠將其運用到深入分析行業數據中。

從數據來源的角度看,在能夠實現數據化運營的企業中,絕大多數僅僅完成了依靠企業自身所產生的數據解決自身所面臨的問題,並且是依據問題來收集所需要的數據。而僅有極少數互聯網企業能夠發揮出大數據分析的真正價值:同時運用企業外部和內部的數據來解決企業自身的問題,通過數據分析預測可能出現的問題,並依據數據分析的結果進行商業決策。在一定程度上實現了由數據化運營向運營數據的轉變。 2.大數據的主要分析模式與技術

2.1 大數據的主要分析模式

大數據時代所分析的數據的最主要特徵是“多源異構”,其分析過程是逐層抽象、降維、概括和解讀的過程。從數據採集的源頭進行劃分,可將大數據時代分析處理的數據對象劃分為以下幾個類別:

(1)各網頁中用戶的瀏覽次數、點擊率,各種社交網站、動態網站網頁內容信息的變化,搜索引擎中關鍵詞的搜索量、網絡實時監控數據等互聯網數據。

(2)可以用於分析用戶行為、對系統的操作、以及系統運行狀態的日誌數據。

(3)在通信領域中的各種信號、信令數據,用戶的個人信息以及通話位置、時長等數據。

(4)國民經濟中各領域、各行業的統計分析數據。

對於這些數量龐大的,來自不同源頭的非結構化數據。其分析模式的特點如下:對於互聯網產生的數據,其最主要的應用是建立搜索引擎,通過搜索引擎進行數據檢索、處理。隨著技術的不斷髮展,個性化推薦引擎以及大數據分析引擎的問世能夠更加高效的在海量數據中分析得出更有價值的信息;對於日誌數據,可對用戶點擊瀏覽的行為日誌和系統運行行為日誌進行分析。使得系統能夠根據實際情況產生出更加智能的結果。日誌數據與網頁數據的分析處理模式較為類似,都是通過細緻分析從而探尋出數據中蘊藏的價值。這種數據分析處理模式稱為“離線批處理模式”;對於通信領域的數據分析,分析決策人員會對經過細緻分析的數據進行統計歸納和查詢,並且在最短的時間內獲得最有價值的信息。以此來確保系統的交互性並最大限度地提升用戶體驗。這種數據分析處理模式稱為“查詢式分析”模式;對於互聯網以及國民經濟中重要行業的數據進行實時監控,這種模式稱為“實時數據分析處理“模式。

以上為依據時間特徵劃分的數據分析模式。而實現這些分析模式的主要方法有:分類、迴歸分析、聚類、關聯規則、神經網絡、WEB數據挖掘等。

2.2 大數據的主要分析技術

要想從急劇增長的數據資源中挖掘分析出有價值的信息,需要先進的分析技術作支撐。從宏觀上看,大數據分析技術發展所面臨的問題均包含三個主要特徵:

(1)數據量龐大並以驚人的速度增長;

(2)數據種類與結構多樣化,並以半結構化和非結構化的數據為主;

(3)需要具備及時快速的分析速度,即實時分析。這些特徵使得傳統的數據分析技術無法滿足要求,更加先進的數據分析平臺才是大數據時代更好的選擇。

為了有效應對大數據時代數據分析問題的三個主要特徵以及滿足大數據分析的基本需求,當前以及未來一段時期內將主要通過分佈式數據庫或者分佈式計算集群來對存儲於其內的海量數據進行由淺入深的分析和分類彙總。例如,為滿足實時分析的需求通常會採用Qracle的Exadata 和EMC的GreenPlum。而目前分析處理大數據的應用最廣泛的核心技術為Hadoop。

Hadoop是由Apache基金會所開發的一個基於Java的分佈式數據處理和分析的軟件基礎架構。在這種架構下,用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。Hadoop能夠將數量龐大的數據分解成規模較小、易訪問的數據集併發送到多臺服務器上進行分析,以此獲得高效的分析速率。該架構主要由文件系統以及數據處理兩部分功能模塊組成。

3.大數據分析的幾個核心概念

3.1 K―平均算法

K―平均算法是一種得到廣泛應用的基於劃分的聚類算法。其把M個對象分為N個簇,使得每個簇內具有較高的相似度。

在應用該算法進行數據分析時,首先應輸入包含M個對象的數據集A以及簇的數目N。從A中任意選擇N個對象作為初始簇中心並且不斷重複,隨後計算出簇中對象的均值,將每個對象分配到最相似的簇並且不斷更新簇均值,最後計算準則函數直到其不再發生變化為止。因為該算法的複雜度大約是0(nkt),所以該算法在處理大數據集時是相對可伸縮的和高效率的。

3.2 奇異值分解

假設A是一個m×n階矩陣,其中的元素全部屬於實數域或複數域。如此則存在一個分解使得A=U∑V*。其中U是m×m階酉矩陣,Σ是半正定m×n階對角矩陣,而V*是n×n階酉矩陣的共軛轉置矩陣。這樣的分解就稱為A的奇異值分解。

在MATLAB仿真軟件中計算奇異值分解的函數式為:[b.c.d]=svd(x)

3.3 主成分分析(PCA算法)

從宏觀上來說,主成分分析是指在研究一項變量較多的課題時,將這些變量通過線性變換而簡化為幾個重要變量的一種多元統計分析方法。而在數據分析領域,主成分分析的主要作用是對大規模的數據集進行分析與簡化。其主要體現在降低數據集的維數,同時儘可能保持數據集中的對所研究的問題最有價值的特徵。簡而言之,就是保留低階主成分,忽略高階主成分。其具體方法是通過對協方差矩陣進行特徵分解,從而得出數據的特徵向量與特徵值。主成分分析在數學上可以理解為一個正交化的線性變換,把數據整體變換到一個新的座標系中,使得這一數據的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次類推。

3.4 決策樹學習

從廣義上講,決策樹是一種運用圖解法的概率分析,即在已知各種事件發生概率的基礎上,通過構建決策樹來探究期望值大於等於零的概率,同時判斷可行性的決策分析方法。

決策樹學習是數據分析領域常用的方法,其目的是構建一個模型來預測樣本的目標值。一棵決策樹的訓練就是依據一個既定指標,將訓練數據集分為幾個子集並且在所產生的子集中不斷重複此方法的過程,直到一個訓練子集的類標都相同時為止。決策樹主要有兩種類型:分類樹和迴歸樹。其中分類樹的輸出是樣本的類標,而回歸樹輸出的是一個實數。決策樹的優點體現在即可以處理數值型數據也可以處理類別型數據,並且適合處理大規模數據。

在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、雲計算和物聯網的入門知識和資訊信息,讓我們一起攜手,引領人工智能的未來


分享到:


相關文章: