統計學常用數據類型

編者按】數據類型是統計學的重要概念。機器學習和數據科學開發者Niklas Donges簡要介紹了不同的數據類型,理解這些數據類型有助於對數據集進行恰當的探索性數據分析(EDA)——機器學習項目最被低估的部分之一。

統計學常用數據類型

介紹

理解不同的數據類型,是探索性數據分析(Exploratory Data Analysis,EDA)所需的關鍵預備知識,同時也有助於你選擇正確的可視化方法。你可以將數據類型看成歸類不同類型變量的方式。我們將討論主要的變量類型,以及相應的示例。有時我們會稱其為測量尺度(measurement scale)。

類別數據

類別數據(categrorical data)表示特性,例如一個人的性別,所說的語言,等等。類別數據同樣可以使用數值(例如:1表示雌性,0表示雄性)。

名目數據

名目值(nominal value)指用於標記變量的定性離散單元。你可以直接把它們想象成“標籤”。注意名目數據是無序的。因此,如果你改變名目值的順序,其語義並不會改變。下面是一些名目特徵的例子:

  • 性別:雌性、雄性。
  • 語言:英語、法語、德語、西班牙語。

上面的性別特徵也被稱為“二分(dichotomous)”值,因為它只包含兩個類別。

次序數據

次序值(ordinal value)指離散、有序的定性單元。除了有序之外,它幾乎和名目數據一樣。例如,教育背景可以用次序值來表示:

  1. 初中
  2. 高中
  3. 大學
  4. 研究生

注意,其實初中、高中之間的差別,和高中、大學之間的差別,是不一樣的。這是次序數據的主要限制,次序值之間的差別是未知的。因此,次序值通常用於衡量非數值特徵,例如愉悅程度、客戶滿意度。

數值數據

離散數據

離散數據(discrete data)的值是不同而分散的,換句話說,只能接受一些特定值。這類數據無法測量但可以計數。它基本上用來表示可以分類的信息。例如,拋100次硬幣正面向上的次數。

你可以通過以下兩個問題檢查你處理的是否是離散數據:你可以對其計數嗎?它可以被切分成越來越小的部分嗎?

相反,如果數據可以測量但無法計數,那就是連續數據。

連續數據

連續數據(continuous data)表示測量。例如身高。

連續數據可以分為等距數據(interval data)和等比數據(ratio data)。

等距值指間隔相等的有序單元,也就是說,等距變量包含有序數值,並且我們知道這些數值之間的間隔。例如,用等距數據表示溫度:

  1. -10
  2. -5
  3. 0
  4. +5
  5. +10
  6. +15

等距值的問題在於,它們沒有“真正的零”。拿上面的例子來說,0度不是絕對零度。另外,我們可以加減等距值,而不能乘除等距值或計算比率。由於沒有“真正的零”,無法應用許多描述統計學或推論統計學的方法。

等比值具有等距值的所有特性,同時也有絕對的零。因此,不僅可以加減,還可以乘除。高度、重量、長度、絕對溫度等都屬於等比值。

數據類型為什麼重要?

數據類型是一個非常重要的概念,因為統計學方法只能應用於特定的數據類型。你需要使用不同的方式分析連續數據和類別數據。因此,理解你處理的數據的類型,讓你能夠選擇正確的分析方法。

下面我們將重新查看上面提到的每種數據類型,瞭解它們可以應用什麼樣的統計學方法。為了理解我們將討論的一些性質,你需要對描述性統計學有所瞭解。如果你對此不熟悉,可以先看下我寫的描述性統計學介紹。

統計學方法

名目數據

處理名目數據時,你通過下述方式收集信息:

  • 頻數 在一段時間內或整個數據集中出現的次數。
  • 比例 頻數除以所有事件的頻數之和,即可得到比例。
  • 百分比 我想這無需解釋了吧。
  • 眾數 出現次數最多,也就是頻數最高的數據。
  • 可視化方法 你可以使用餅圖或直方圖可視化名目數據。
統計學常用數據類型

左:餅圖;右:直方圖

次序數據

當你處理次序數據時,你可以使用以上用於名目數據的方法,不過,除此之外,你還可以使用一些額外的工具。也就是說,你可以使用頻數、比例、百分比、眾數概括次序數據,也可以使用餅圖、直方圖可視化次序數據。除此之外,你還可以使用:

  • 百分位數 計算由小到大排列的次序數據的累計百分位,某一百分位對應的數據值就稱為這一百分位的百分位數。百分位數可以用來描述數據的離散趨勢。
  • 中位數 即第50百分位數,它將數據分為相等的上下兩部分。中位數可以用來描述數據的中間趨勢。例如,如果我們用次序數據表示星巴克咖啡的容量:中杯、大杯、特大杯。那麼,其中位數為大杯(也就是說,真正的中杯是大杯)。
  • 四分位距 第75百分位數與第25百分位數之差即為四分位距。四分位距可以簡要概述數據的離散趨勢。

連續數據

大多數統計學方法都可以用於連續數據。你可以使用百分位數、中位數、四分位距、均值、眾數、標準差、區間。

你可以使用矩形圖或箱形圖可視化連續數據。從矩形圖上可以看到分佈的中間趨勢、離散程度、形態和峰態。注意,矩形圖不體現離散值,因此我們有時使用箱形圖。

統計學常用數據類型

左:箱形圖;右:矩形圖

總結

本文討論了統計學中常用的不同數據類型。你瞭解了離散數據和連續數據的區別,以及什麼是名目數據、次序數據、等距數據、等比數據。此外,你現在知道了每種數據類型可以應用的統計學方法和可視化方法。如果你在給定數據集上進行探索性分析,你會發現這些非常有用。


分享到:


相關文章: