大家好!在上篇文章中,我們一起學習瞭如何掌握正確的數據處理思維。在完成數據準備和清理工作後,就要進入到正式分析階段,而選擇什麼樣的數據分析方法進行分析是關鍵。
想要進行科學和系統化的數據分析,分析方法的思維是必備項。本文為SPSSAU數據分析思維培養的第2篇文章,將分別從數據類型談起,剖析數據應該如何分析,包括數據的基礎描述,數據質量的判斷。除此之外,還進行差異關係,影響關係涉及的分析方法解析,最後針對更深入的影響關係進行說明。
希望通過本文幫助大家更快地掌握數學分析的思維,使用正確和科學的分析方法,完成科學的研究報告。
第1點,數據類型
進行數據分析的第一個思維,數據類型的識別。數據一般分成兩類,定類和定量,如下:
如果數據是類別,比如性別,或者醫學上的陽性陰性,數字1表示男2表示女;也或者數字1表示陽性0表示陰性。數字的大小是不能進行PK對比,而只能代表類別,此類數據SPSSAU稱為‘定類數據’(也稱分類數據,定性數據等)。還有一類數據比如身高體重年齡,數字的大小具有實際意義可以對比大小,數字越大身高越高,體重越重,年齡越大,此類數據SPSSAU稱為‘定量數據’(也稱連續數據)。
還有一種數據即像定類數據,也像定量數據。比如學歷分成4組,分別是大專以下,大專,本科,本科以上,分別使用數字1,2,3,4標識。我們可以把其看成是四個類別,也可以看成是數字越大學歷越高。針對此種數據在具體分析的時候需要看實際情況,一般來說把它看成定類數據更方便分析,那就看成是定類數據;如果把它看成定量數據更方便,那就看成是定量數據。
定類和定量數據的最大區別在於:定類數據一般是看頻數百分比,定量數據一般是看平均值;而且分析上定類數據一般只能看差異性,定量數據一般是看影響關係。接下來的內容中會更加理解這種思維上的區別。
第2點,基礎描述
上述第1點已經說明了數據類型的鑑別方法,那麼針對定類數據來講,一般就是使用頻數分析,查看選擇頻數和百分比;如果是定量數據一般就使用描述分析,查看平均值和中位數等。此兩項分析均可在SPSSAU通用方法裡面輕鬆的找到。
頻數、描述分析-SPSSAU
得到一份數據後,通常第一步就是查看數據情況,分別對定類和定量數據做下簡要的分析,以便對於數據基本特徵有個大概的瞭解,同時可查到數據是否具有異常值情況等。比如對身高做描述分析發現最小值為負數。
如果數據中有發現異常值,此時需要及時的進行處理,如果有異常數據但沒有處理,這種情況會導致後續的分析完全無用,因為異常數據對於分析的影響巨大。SPSSAU數據處理裡面有異常值功能,同時生成變量也提供比如Winsor處理等。
異常值處理-SPSSAU
第3點,數據質量
除了對數據基礎情況有所瞭解外,還需要分析下數據的質量情況,如果數據中有量表,那麼信度分析和效度分析最好不過。效度分析時可使用EFA和CFA,即探索性因子和驗證性因子分析方法進行。信度或者效度分析等都是針對量表問卷一類的數據。
信度、效度分析-SPSSAU
如果是實驗數據,也或者專家打分數據等,此類數據不能做問卷式的信度和效度分析,但是可用於評定數據的一致性情況等,當然也是用於驗證數據的有效可靠性等。此時可使用相關的方法比如ICC組內相關係數,Kappa係數,Kendall係數,也或者使用相關係數方法等,具體一致性檢驗方法的區別和使用情況,建議查看SPSSAU手冊,醫學/實驗研究方法裡面均有提供對應的研究方法。
第4點,差異關係
上述已經提及數據的類型,數據質量判斷,當所有數據都準備完善,去除掉無效樣本,異常值之後,數據質量也達標後。那麼進入正式的分析就顯得順其自然。什麼是差異關係呢,接下來舉例說明:
如果是定類數據的差異性,那麼可使用卡方擬合優度檢驗。比如想研究陽性和陰性這兩個組別的樣本比例是否有差異性。如果是研究2個定類數據的差異性,則需要使用卡方檢驗,SPSSAU有兩個按鈕均可進行卡方檢驗,包括通用方法裡面的交叉卡方和醫學研究裡面的卡方檢驗,區別在於後者可提供更多深入指標以及支持加權數據格式。
如果是定量數據的差異性,比如想研究樣本群體平均身高是否等於1.8,一般是使用單樣本T檢驗,但如果身高數據並不符合正態性時,此時可使用單樣本Wilcoxon檢驗。
如果是研究定類和定量數據的差異性,比如想研究不同性別群體的體重上是否有明顯的差異性,那麼方差分析或T檢驗均可,區別在於方差可對比多重(比如東北、西南、東南三個地區的差異),而T檢驗只對比兩組(比如男和女)的差異性。除此之外,如果這裡體重這個數據嚴重的不正態時,最好使用非參數檢驗進行,SPSSAU通用方法裡面有提供此方法。
如果是配對實驗數據,比如實驗前患病狀態(陽性和陰性),與實驗後患病狀態(陽性和陰性)的差異對比,明顯的是實驗數據且為定類數據差異對比,此時需要使用配對卡方。如果是實驗前成績和實驗後成績的對比,那麼是實驗數據且定量數據差異對比,此時使用配對T檢驗較多,當然如果說成績這個定量數據嚴重的不正態,此時使用配對Wilcoxon檢驗也許更優。
特別提示一點,實驗數據是指‘實驗前和實驗後’,也或者‘同一個樣本分別測量兩次’這種情況。常見的實驗組和對照組數據並不是絕對的實驗數據,對比差異時一般是使用普通的T檢驗,而不是配對T檢驗。
除此之外,有時候實驗數據的對比,比如同一個病例進行3次測量,測量1、測量2、測量3的對比差異性,此時可使用比如Friedman檢驗等。
第5點,影響關係
上述講完差異關係,差異係數研究時,基本上都會有定類數據。因為定類數據是不同的類別,不同類別間只能說類別A和類別B是否有明顯的不一樣,也就是差異性。定量數據能說越怎麼樣越怎麼樣,比如身高越高體重越重。因此定量數據更容易進行影響關係,即帶‘迴歸’二字的影響關係研究。
影響關係是研究X影響Y;如果Y是定量數據,那麼一般是使用線性迴歸;線性迴歸的使用頻率最高而且深入最高,其延遲出來還有比如分層線性迴歸、逐步迴歸等等,其實質上就是線性迴歸,只是另外一種變形(為了解決特定問題而產生)而已。
如果Y是定類數據,那麼就應該使用Logit迴歸等。Logit迴歸還可分為3類,如果Y是二分類(比如是和否),那麼就叫二元Logit迴歸;如果Y是多個類別,那麼就叫多分類Logit迴歸。如果說Y是定類數據(但同時又可看成是定量數據),那麼可使用有序多分類Logit迴歸。
除此之外,如果研究的迴歸影響關係是曲線的,比如二次曲線,三次曲線等,那麼就可以使用曲線迴歸。
針對X對於Y的研究上,一般情況下是多個X對於1個Y的影響;如果是研究多個X對於多個Y的影響,那麼可選的方法包括PLS迴歸、典型相關等。
第6點,深入影響關係
除上一部分的影響關係研究外,還有更深入的影響關係拓展。比如心理學、管理學上的調節作用或中介作用研究等,其實質上就是線性迴歸的昇華和拓展,它們是分析方法的實質應用,比如調節作用和中介作用,一般就是使用分層線性迴歸進行驗證。
當然當前還有更深入的研究,比如多個X和多個Y之間的影響關係情況研究,可使用路徑模型,結構方程模型等進行深入分析。否則的話就需要重複進行多次線性迴歸分析。
路徑分析、結構方程模型-SPSSAU
除此之外,當前還有一些更深入的影響關係研究,比如面板迴歸模型,嶺迴歸等,其實質上依舊是影響關係研究。但區別在於比如面板迴歸模型,它是特定對於面板數據進行的迴歸影響關係研究。嶺迴歸是特定解決數據的共線性問題共誕生的研究方法而已,全部在SPSSAU平臺裡面均能找到。
總結
數據分析思維的培訓上,最關鍵的是數據類型的區別,接著針對數據的清理(即通過基礎描述和數據質量的分析),並且區分數據類型後,採用差異研究和影響關係,也或者更深入的影響關係研究,最終為實際研究服務。
一文無法全部概括所有的研究,希望對數據分析思維有所引導。比如數據其實還有其它的研究,包括數據濃縮(主成分或因子分析)、數據聚類(Kmeans聚類、分層聚類)等等,在後續的文章中均會單獨進行說明。
閱讀更多 spssau 的文章