數據統計的理解和運用(一)思路篇

馬克·吐溫說:“世界上有三種謊言:謊言、該死的謊言和統計數據

。”

不少人對統計學存在一定的誤解,認為統計學是數字遊戲。實際上,統計數字有可能是謊言,但統計學絕對是一門科學,更是一種藝術,是一種決策藝術。想要了解統計,就要從變量開始。

變量(variable)是對研究個體進行觀察或測量的某種特徵。如對身高進行測量,身高就是變量;觀察某藥物的療效,療效就是變量。變量的觀察值構成資料(data),也就是我們接觸到的具體數據。

資料大致可分為兩大類:

一是定量資料(quantitative data),又分為離散型資料和連續型資料;

二是定性資料(qualitative data),即分類資料(categorical data),又分為無序分類資料和有序分類資料。

連續型資料可以取任意數值,可以有小數點,如身高、體重等。離散型資料只能取整數,不能有小數點,如發病人數等。

無序分類資料指各分類之間無等級或程度的變化,如血型分為A、B、O、AB四型,它們是地位平等的。有序分類資料也稱等級資料(ordinal data),指各分類之間有等級或程度的差異,如療效分痊癒、顯效、有效、無效四類,各類之間有等級差別。

數據統計分析可遵循以下思路:

(1)先確定研究目的,根據研究目的選擇方法。不同研究目的採用的統計方法不同,常見的研究目的主要有三類:

一是差異性研究,即比較組間均數、率等的差異,可用的方法有t檢驗、方差分析、χ2檢驗、非參數檢驗等。

二是相關性分析,即分析兩個或多個變量之間的關係,可用的方法有相關分析。

三是影響性分析,即分析某一結局發生的影響因素,可用的方法有線性迴歸、logistic迴歸、Cox迴歸等。

(2)明確數據類型,根據數據類型進一步確定方法。定量資料可用的方法有t檢驗、方差分析、非參數檢驗、線性相關、線性迴歸等。分類資料可用的方法有χ2檢驗、對數線性模型、logistic迴歸等。下圖簡要列出了不同研究目的、不同數據類型常用的統計分析方法。

(3)選定統計方法後,需要利用統計軟件具體實現統計分析過程。

SPSS為菜單操作,窗口化點擊,SAS 和 R語言中,不同的統計方法對應不同的命令,只要方法選定,便可通過對應的命令,輔之以相應的選項,進而得到統計結果。

(4)統計結果的輸出並非數據分析的完成。一般統計軟件都會輸出很多結果,需要從中選擇自己需要的部分,並做出統計學結論,但統計學結論不同於專業結論,最終還需要結合實際做出合理的專業結論。

醫學統計學的學習一定要以理解為主。對於初學者,不必強記一大堆公式,也不要死鑽牛角尖,非要弄明白為什麼這種方法叫“t檢驗”、“F檢驗”,為什麼這個殘差叫做“學生化殘差”等,這些都是歷史方面的問題,感興趣的讀者可以查閱統計學史。

我們不會解釋這些名稱的由來,只會告訴你在什麼情況下應該用什麼方法,什麼指標應該用於什麼情形。先從模仿做起,模仿案例分析過程。當然,分析思路不是唯一的,也不見得是最好的,但通常在實際中可以奏效。

本系列可以很好地幫助初學者對數據統計的理解和運用,敬請期待下期!

臨度科研 | 數據統計的理解和運用(一)思路篇

— THE END —


分享到:


相關文章: