大數據掘金——數據挖掘過程

大數據掘金——數據挖掘過程

數據庫知識獲取過程

大數據掘金——數據挖掘過程

跨行業標準化數據挖掘流程

大數據掘金——數據挖掘過程

1.商業問題理解

全面瞭解管理對新知識的需求以及對企業目標的明確認識。

公司最近因競爭對手影響而損失的客戶有什麼共同特點?
公司典型客戶檔案如何?

每位客戶能為公司帶來多少價值?

進行項目規劃,明確負責收集數據、分析數據、彙報結果的人員。在這一早期階段,還應當對進行研究的經費預算,至少要給出預算上限和大致數據。

2.數據理解

將商業問題與使用數據完美匹配。

準確的描述數據挖掘任務以便確認所需的數據組。
深入瞭解數據源,數據存儲位置,存儲格式,數據收集是自動化還是人工,誰負責收集數據,數據更新週期。
清楚地認識變量,與問題最相關的變量是哪些、變量中有哪些是同義詞或同音異義詞、變量之間是獨立的嗎、它們之間構成完整的數據源還是存在交叉和衝突的地方。

定量數據:用數值來衡量,可以是離散的,也可以使連續的。也成為分類數據包括定序和定類兩種,定序數據有有限多個可排序的取值(差、好、極好),定類數據具有有限不可排序的取值(男、女)。定量數據可以由幾組概率分佈來表示。概率分佈顯示了數據是如何分佈的

定性數據:可以進行編碼,通過頻率分佈表示。

3.數據準備

數據處理。真實世界的數據通常都是不完全的(缺乏屬性值、特殊性或只有總數)、雜亂的(包含錯誤或異常值)、不連續的(編碼或名字中存在矛盾)。由於數據來自不同的數據源,它們之間具有不同的格式,如選取的數據可能來自平面文件、音頻、圖片或網頁,必須轉化為持續統一的格式。

4.建立模型

需要利用多種模型,經過多次實驗和測量,找出解決某個實際問題的最佳方案。甚至對於單個模型或公式而言,也是需要對參數進行標準化才能得到最優結果。某些方法對數據格式有特殊要求,因此還需要退回到數據準備階段重新處理。

數據挖掘建模的標準流程是將大規模未經處理數據分為小組,以進行測試或檢驗。然後分析師就可以根據一部分數據(實驗組)建立模型(可以使用任何建模方法或公式),用另一部分數據(測試組)測試建立起來的模型。

5.檢驗和評估

對建立起來的模型進行測量和評估,確定其準確性和一般性。在實際環境中測試模型是否符合時間和財務的要求。這一發現過程的成功與否取決於數據分析師、商業分析師和決策者(如企業管理者)的互動。為了更好地解讀數據,我們通常使用表格或可視化技術(如數據透視表、交叉表分析、餅圖、柱狀圖、箱線圖和散點圖等)。

6.部署

數據部署這一步可能僅僅是給出一份報告,但也有可能要將整個數據挖掘過程在全公司重複一遍。

SEMMA

大數據掘金——數據挖掘過程

大數據掘金——數據挖掘過程

六西格瑪方法

大數據掘金——數據挖掘過程

數據挖掘中的數據屬性

大數據掘金——數據挖掘過程

數據挖掘中的數據預處理

大數據掘金——數據挖掘過程

大數據掘金——數據挖掘過程

數據挖掘方法

大數據掘金——數據挖掘過程


分享到:


相關文章: