2019-10-31 14:20:17 e安教育

大數據(big data,mega data)或稱巨量資料，指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。今天我們主要為大家講解在做大數據可視化時，有哪些常見得到數據分析模型。

數據模型可以從兩個角度來區分：數據和業務。

一、數據模型

統計數據視角的實體模型通常指的是統計分析或大數據挖掘、深度學習、人工智能技術等種類的實體模型，這些模型是從科學研究視角去界定的。

1、降維

對大量的數據和大規模的數據進行數據挖掘時，往往會面臨“維度災害”。數據集的維度在無限地增加，但由於計算機的處理能力和速度有限，此外，數據集的多個維度之間可能存在共同的線性關係。這會立即造成學習模型的可擴展性不足，乃至許多那時候優化算法結果會無效。因而，人們必須減少層面總數並減少層面間共線性危害。

數據降維也稱為數據歸約或數據約減。它的目的就是為了減少數據計算和建模中涉及的維數。有兩種數據降維思想:一種是基於特徵選擇的降維，另一種是基於維度變換的降維。

2、迴歸

迴歸是一種數據分析方法，它是研究變量X對因變量Y的數據分析。我們瞭解的最簡答的迴歸模型就是一元線性迴歸(只包含一個自變量和因變量，並且晾在這的關係可以用一條直線表示)。

迴歸分析根據自變量的數量分為單迴歸模型和多元迴歸模型。根據影響是否是線性的，可以分為線性迴歸和非線性迴歸。

3、聚類

我們都聽過“物以類聚，人以群分”這個詞語，這個是聚類分析的基本思想。聚類分析法是大數據挖掘和測算中的基礎每日任務，聚類分析法是將很多統計數據集中化具備“類似”特點的統計數據點區劃為一致類型，並最後轉化成好幾個類的方式。大量數據集中必須有相似的數據點。基於這一假設，可以區分數據，並且可以找到每個數據集(分類)的特徵。

4、分類

分類算法根據對己知類型訓煉集的測算和剖析，從文中發覺類型標準，為此分折新統計數據的類型的類別優化算法。分類算法是解決分類問題的一種方法，是數據挖掘、機器學習和模式識別的一個重要研究領域。

5、關聯

關聯規則學習根據尋找最能解釋數據變量之間關係的規則，在大量多元數據集中找到有用的關聯規則。這是一種從大量數據中找出各種數據之間關係的方法。此外，它還可以挖掘基於時間序列的各種數據之間的關係。

6、時間序列

時間序列是一種用於研究數據隨時間變化的算法，是一種常用的迴歸預測方法。原則是事物的連續性。所謂連續性，是指客觀事物的發展具有規律性的連續性，事物的發展是按照其內在規律進行的。在一定的條件下，只要規則作用的條件不發生質的變化，事物的基本發展趨勢就會持續到未來。

7、異常數據檢測

在大多數數據挖掘或數據工作中，異常值將被視為“噪聲”，並在數據預處理過程中消除，以避免其對整體數據評估和分析挖掘的影響。然而，在某些情況下，如果數據工作的目標是關注異常值，這些異常值將成為數據工作的焦點。

數據集中的異常數據通常被稱為異常點、異常值或孤立點等。典型的特徵是這些數據的特徵或規則與大多數數據不一致，表現出“異常”的特徵。檢測這些數據的方法稱為異常檢測。