在SPSS中進行BOX-COX轉換技术頭條網

在SPSS中進行BOX-COX轉換

我們經常使用的線性迴歸分析，參數檢驗方法都要求因變量(殘差)滿足正態分佈，但在實踐中，經常會遇到數據不滿足正態分佈的情況，為了使因變量或者殘差的分佈滿足正態分佈，經常需要對因變量進行轉換。在轉換時，有多種轉換方式，比如可以嘗試對數，平方根，平方根的倒數等等一系列的函數對數據進行轉換。本文根據論文《BOX-COX變換及其在SPSS軟件中的實現》給大家介紹一種轉換方法，該方法能夠幫助我們自動確定用於將非正態數據轉換成正態數據的合適函數，可以免去我們嘗試多種函數的麻煩。

要知道在SPSS中，沒有提供用於box-cox轉換的菜單，所以只能以編寫程序的方式去實現box-cox轉換，對於沒有統計學研究生學歷的大多數小夥伴來說，自己寫出這樣的一個程序應該是不太可能的，好在已經有國內的學者發表了一篇相關論文，論文中提供了一段程序代碼，可以使用這段程序代碼來完成對自己數據的box-cox轉換。你可以從知網或者其它渠道下載這篇論文，我這裡將論文中的程序代碼粘貼到本文中，然後後面會告訴如何使用這段代碼。

* Encoding: GBK.
SET LENGTH=NONE.
SET MXLOOP = 100000000.
MATRIX.
GET W/VARIABLES= all/FILE= */MISSING=OMIT.
COMPUTE NR =NROW(W).
COMPUTE NC =NCOL(W).
COMPUTE Y=MAKE(NR,1,0).
COMPUTE XX=MAKE(NR,NC,1).
COMPUTE YLAM=MAKE(NR,1,1).
COMPUTE BOXCOX=MAKE(6100,2,0).
COMPUTE YTEMP=0.
LOOP II=1 TO NR.
COMPUTE Y(II,1)=W(II,1).

LOOP JJ=1 TO NC-1.
COMPUTE XX(II,JJ+1)=W(II,JJ+1).
END LOOP.
COMPUTE YTEMP=YTEMP+LN(Y(II)).
END LOOP.
LOOP TEMP=1 TO 6100.
COMPUTE LAMBDA=-3.001 + TEMP * 0.001.
DO IF LAMBDA=0.
COMPUTE YLAM(:)=LN(Y(:)).
ELSE.
COMPUTE YLAM(:)=(Y(:)&**LAMBDA -1)/LAMBDA.
END IF.
COMPUTE BETA=INV(T(XX)*XX)*T(XX)*YLAM.
COMPUTE MSE = T(YLAM-XX*BETA)*(YLAM-XX*BETA)/NR.
COMPUTE LOGLIKE=-1*NR/2*LN(MSE)+(LAMBDA-1)*YTEMP.
COMPUTE BOXCOX(TEMP,1)= LAMBDA.
COMPUTE BOXCOX(TEMP,2)= LOGLIKE.
END LOOP.
SAVE BOXCOX /OUTFILE=*.
END MATRIX.
RENAME VARIABLES COL1= LAMBDA COL2= LOGLIKE.
GRAPH
/SCATTERPLOT(BIVAR)=LAMBDA WITH LOGLIKE /MISSING=LISTWISE
/TITLE= 'Log-Likelihood versus lambda'.

首先在spss中打開我們需要使用的數據（本文案例使用是從國家統計局下載的2016年不同省份的gdp數據），打開後將要進行轉換的變量（gdp2016）放在第一列，要保證該變量是一個數值型的變量，數據類型要設置成數字，並且度量類型要設置為【標度】。然後我們先暫時將數據集中的其它不需要進行轉換的變量刪除此處暫時刪除後，在計算得到我們所需的box-cox轉換的lambda/λ 參數後，通過撤銷操作可恢復原始數據，為了確保安全，防止誤操作導致數據無法恢復，建議在分析前，對數據文件進行備份操作，另外此數據集後面的幾個變量表示的是通過幾種不同轉換得到的新變量。