大數據應用於實際的案例中,主要的應用流程是什麼?

2012年的IT業界,吸引眾人目光的熱門關鍵詞包括了Big Data(又稱大數據、巨量數據、海量數據),在IT業界,每隔兩到三年,就會出現轟到一時但很快就會被人遺忘的流行術語,而繼雲端之後能夠超越流行術語境界並深植人心的應該就是大數據 。

大數據應用於實際的案例中,主要的應用流程是什麼?

眾所周知,大數據當中含有許多的隱藏價值,將收到的數據應用到實際的案例中,還是有一定的流程,主要分為三步:

  1. 採集,大數據的採集是指利用多個數據庫來接收發自客戶端,如網頁、手機應用或者傳感器等的數據,並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。如:電商會使用傳統的關係型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用於數據的採集。

2.導入、預處理,雖然採集端本身會很多數據庫,但是如果要對這些大數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分佈式數據中,或者分佈式存儲集群,並且在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。

導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。

大數據應用於實際的案例中,主要的應用流程是什麼?

3.統計、分析,統計與分析主要利用分佈式數據庫、或者分佈式計算來對存儲於其內的海量數據進行常用的分析和分類彙總等,以滿足一般性的分析需求。在這方面,一些實時性需求會用到美國易信安公司的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。

統計與分析這部分的主要特和挑戰是分析涉及的數據量大,其對系統資源,特別是輸入及輸出時會佔用極大的內存空間。

大數據應用於實際的案例中,主要的應用流程是什麼?

4.挖掘,與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種算法的計算,而達到預期的效果,從而實現一些高級別數據分析的需求。比較典型的算法有用於聚類的K-means、用於統計學習的SVM和用於分類的NaiveBayest等。該過程 的特點和挑戰主要是用於挖掘的算法很複雜,並且計算涉及的數據量和計算量都很大,常用數據挖掘的算未能都以單線程為主。

整個大數據處理的一般流程至少應該包括這四個步驟,才能算得上是比較完整的,對大數據比較感興趣的,可以關注多智時代,及時查閱相關信息,如有疑問,請批評指正。


分享到:


相關文章: