如何將大數據分為不同的類別?

如何將大數據分為不同的類別

大數據問題的分析和解決通常很複雜。大數據的量、速度和種類使得提取信息和獲得業務洞察變得很困難。以下操作是一個良好的開端:依據必須處理的數據的格式、要應用的分析類型、使用的處理技術,以及目標系統需要獲取、加載、處理、分析和存儲數據的數據源,對大數據問題進行分類。


如何將大數據分為不同的類別?


概述

大數據可通過許多方式來存儲、獲取、處理和分析。每個大數據來源都有不同的特徵,包括數據的頻率、量、速度、類型和真實性。處理並存儲大數據時,會涉及到更多維度,比如治理、安全性和策略。選擇一種架構並構建合適的大數據解決方案極具挑戰,因為需要考慮非常多的因素。

這個 “大數據架構和模式”系列提供了一種結構化和基於模式的方法來簡化定義完整的大數據架構的任務。因為評估一個業務場景是否存在大數據問題很重要,所以我們包含了一些線索來幫助確定哪些業務問題適合採用大數據解決方案。

從分類大數據到選擇大數據解決方案

如果您花時間研究過大數據解決方案,那麼您一定知道它不是一個簡單的任務。本系列將介紹查找滿足您需求的大數據解決方案所涉及的主要步驟。

我們首先介紹術語 “大數據”所描述的數據類型。為了簡化各種大數據類型的複雜性,我們依據各種參數對大數據進行了分類,為任何大數據解決方案中涉及的各層和高級組件提供一個邏輯架構。接下來,我們通過定義原子和複合分類模式,提出一種結構來分類大數據業務問題。這些模式有助於確定要應用的合適的解決方案模式。我們提供了來自各行各業的示例業務問題。最後,對於每個組件和模式,我們給出了提供了相關功能的產品。

第 1 部分將介紹如何對大數據進行分類。本系列的後續文章將介紹以下主題:

♦ 定義大數據解決方案的各層和組件的邏輯架構

♦ 理解大數據解決方案的原子模式

♦ 理解用於大數據解決方案的複合(或混合)模式

♦ 為大數據解決方案選擇一種解決方案模式

♦ 確定使用一個大數據解決方案解決一個業務問題的可行性

♦ 選擇正確的產品來實現大數據解決方案

依據大數據類型對業務問題進行分類

業務問題可分類為不同的大數據問題類型。以後,我們將使用此類型確定合適的分類模式(原子或複合)和合適的大數據解決方案。但第一步是將業務問題映射到它的大數據類型。下表列出了常見的業務問題併為每個問題分配了一種大數據類型。

按類型對大數據問題分類,更容易看到每種數據的特徵。這些特徵可幫助我們瞭解如何獲取數據,如何將它處理為合適的格式,以及新數據出現的頻率。來自不同來源的數據具有不同的特徵;例如,社交媒體數據包含不斷傳入的視頻、圖像和非結構化文本(比如博客文章)。

表 1. 不同類型的大數據業務問題


如何將大數據分為不同的類別?


我們依據這些常見特徵來評估數據,下一節將詳細介紹這些特徵:

♦ 內容的格式

♦ 數據的類型(例如,交易數據、歷史數據或主數據)

♦ 將提供該數據的頻率

♦ 意圖:數據需要如何處理(例如對數據的臨時查詢)

♦ 處理是否必須實時、近實時還是按批次執行。

在此我向大家推薦一個大數據開發交流圈:658558542 裡面整理了一大份學習資料,全都是些乾貨,包括大數據技術入門,大數據離線處理、數據實時處理、Hadoop 、Spark、Flink、推薦系統算法以及源碼解析等,送給每一位大數據小夥伴,讓自學更輕鬆。這裡不止是小白聚集地,還有大牛在線解答!歡迎初學和進階中的小夥伴一起進群學習交流,共同進步!

使用大數據類型對大數據特徵進行分類

按特定方向分析大數據的特徵會有所幫助,例如以下特徵:數據如何收集、分析和處理。對數據進行分類後,就可以將它與合適的大數據模式匹配:

1、分析類型— 對數據執行實時分析還是批量分析。請仔細考慮分析類型的選擇,因為這會影響一些有關產品、工具、硬件、數據源和預期的數據頻率的其他決策。一些用例可能需要混合使用兩種類型:

2、欺詐檢測;分析必須實時或近實時地完成。

3、針對戰略性業務決策的趨勢分析;分析可採用批量模式。

4、處理方法— 要應用來處理數據的技術類型(比如預測、分析、臨時查詢和報告)。業務需求確定了合適的處理方法。可結合使用各種技術。處理方法的選擇,有助於識別要在您的大數據解決方案中使用的合適的工具和技術。

5、數據頻率和大小

— 預計有多少數據和數據到達的頻率多高。知道頻率和大小,有助於確定存儲機制、存儲格式和所需的預處理工具。數據頻率和大小依賴於數據源:

♦ 按需分析,與社交媒體數據一樣

♦ 實時、持續提供(天氣數據、交易數據)

♦ 時序(基於時間的數據)

6、數據類型— 要處理數據類型 — 交易、歷史、主數據等。知道數據類型,有助於將數據隔離在存儲中。

7、內容格式(傳入數據的格式)結構化(例如 RDMBS)、非結構化(例如音頻、視頻和圖像)或半結構化。格式確定了需要如何處理傳入的數據,這是選擇工具、技術以及從業務角度定義解決方案的關鍵。

8、數據源— 數據的來源(生成數據的地方),比如 Web 和社交媒體、機器生成、人類生成等。識別所有數據源有助於從業務角度識別數據範圍。該圖顯示了使用最廣泛的數據源。

9、數據使用者— 處理的數據的所有可能使用者的列表:

♦ 業務流程

♦ 業務用戶

♦ 企業應用程序

♦ 各種業務角色中的各個人員

♦ 部分處理流程

♦ 其他數據存儲庫或企業應用程序

10、硬件— 將在其上實現大數據解決方案的硬件類型,包括商用硬件或最先進的硬件。理解硬件的限制,有助於指導大數據解決方案的選擇。

圖 1 描繪用於分類大數據的各種類別。定義大數據模式的關鍵類別已識別並在藍色方框中突出顯示。大數據模式(將在下一篇文章中定義)來自這些類別的組合。

圖 1. 大數據分類


如何將大數據分為不同的類別?


結語

在本系列剩餘部分中,我們將介紹大數據解決方案的邏輯架構和各層,從訪問到使用大數據。我們將提供數據源的完整列表,介紹專注於大數據解決方案的每個重要方面的原子模式。我們還將介紹複合模式,解釋可如何結合使用原子模式來解決特定的大數據用例。本系列最後將提供一些解決方案模式,在廣泛使用的用例與各個產品之間建立對應關係。


分享到:


相關文章: