迴歸分析的正確打開方式

Christopher H. Achen. Let's Put Garbage-Can Regressions and Garbage-Can Probits Where They Belong [J]. Conflict Management& Peace Science, 2005, 22(4):327-339.

ChristopherH. Achen,美國藝術與科學院院士、美國政治學會方法分部首任主席、普林斯頓大學政治學系羅傑威廉姆斯講席教授、政治學定量研究方法重要奠基人。他的研究方向包括實證民主理論、美國政治、比較政治和政治學方法論。

近期,《耶魯大學比較政治學書單》得到了讀者朋友們的喜愛與好評。細心的讀者可能已經發現,位列這份書單榜首的既不是經典教材,也不是前沿成果,而是一篇殺氣騰騰的“檄文”。在這篇文章中,作者將那種常見的、把一大堆變量放入模型“跑”迴歸的研究方法痛斥為“垃圾桶迴歸”,聲稱這些研究結果本身也將被掃進統計學的垃圾桶。那麼,作者何以得出如此驚世駭俗的結論,他大聲疾呼的目的又在何處呢?政文觀止編輯部特將這篇文章編譯出來,與讀者分享作者的才華、豪情與憂思。

一、 被濫用的迴歸分析

作者指出,在當今的國際政治研究中,民主和平論等重要理論的檢驗與發展都離不開統計數據,甚至許多科學理論是直接從數據中發現的。對於不同的數據類型的計算目標,統計學已經發展出最小二乘法、最大似然估計、貝葉斯估計、廣義矩估計、穩健標準差等紛繁複雜的統計工具。然而,在作者看來,許多實證研究中的統計分析是非常“無腦”的:研究者將所有的疑似變量都“扔”進迴歸模型,通過迴歸係數和顯著性來判斷自變量是否有效,再加入控制變量來排除其他因素的影響。最終,研究者自認為構建起一個足夠複雜的模型,並用一堆有顯著性的變量來證明自己的假設。作者認為,這種方法不僅不符合學術規範,而且明顯地違背科學。

既有的研究充分說明,這種粗暴的迴歸分析無法解決間接關係和三角因果結構(triangular causalstructure)。作者則進一步強調,這種迴歸分析不僅不能完整地揭示變量間的真實關係,甚至會得出完全錯誤的因果效應。在進行實例演算前,作者強調,定量研究者幾乎把如下兩個誤解當成了定理:首先,他們認為,把控制變量放入迴歸模型就能真的控制它們的影響,從而得到自變量的合理係數。其次,他們認為,把一系列的自變量放入迴歸模型就能得出它們各自對因變量的效應,而從迴歸係數和標準差的數值上則可以判斷出各個自變量的重要性,進而比較自變量所代表的不同假設的適用性。對此,作者聲稱,他可以讓迴歸分析的係數與真實情況恰好相反,從而讓這兩個誤解不攻自破。

二、 不可能的實例?

為了證明自己所言非虛,作者構建瞭如下這個數據集:

迴歸分析的正確打開方式

其中,x1和x2是真正的解釋因素。直觀可見,x1對因變量y的效應有著輕微的非線性特點。z是有關x1的某種函數,即z = f (x1),函數圖像如下:

迴歸分析的正確打開方式

不難發現,y = z + 0.1x2,可見因變量可以完美地被自變量解釋,而且呈現一種非常簡單的線性關係。顯然,這種情況下R2=1。

根據統計學原理,我們可以將等式改寫成迴歸方程:y= α + β1z + β2x2 + u。無疑,此時的迴歸結果為:ˆα = 0,ˆβ1= 1,ˆβ2 = 0.1,R2=1。然而,真正的解釋因素是x1和x2 ,因此,完整的迴歸方程是:y = α + β1f(x1)+β2x2 + u 。根據此前的兩個“偽定理”,所有的自變量和控制變量都已經放入模型,迴歸分析的結果應當是準確而理想的。事實真的如此嗎?作者分別對x1、x2以及兩者同時進行了迴歸,結果如下(括號內為標準差):

迴歸分析的正確打開方式

迴歸分析的正確打開方式

從參數來看,這三個模型的R2和顯著性(t檢驗)都尚可,然而對比原方程y = z + 0.1x2 ,作者有了驚人的發現!最終模型中,x2的影響效應被放大了28倍,而且係數由正變負!

作者強調,這種錯誤並不是由樣本數量和隨機誤差造成的,假如對錶1進行反覆抽樣並生成新的大數據集,其運算結果最終也是如此。由此可見,這種“垃圾桶迴歸”不僅“無腦”,而且非常危險,有可能會嚴重誤導社會科學的發展。

三、 很絕望,能怎麼辦?

社會科學中的許多變量之間都有著或多或少的非線性關係,在不廢除線性迴歸分析的前提下,我們該如何避免上文中的嚴重謬誤呢?作者認為首先應當訴諸規範的理論模型。研究者如果熟悉既有的相關理論,那麼他對於何處可能出現非線性關係應該瞭然於胸,因此就不該將所有的疑似變量都“扔”進迴歸模型。在此基礎上,研究者應當在迴歸分析前仔細的檢查和判斷數據的真實趨勢。

以上文的數據集為例,作者畫出了因變量之於兩個自變量的散點圖:

迴歸分析的正確打開方式

迴歸分析的正確打開方式

顯然,這兩個自變量對於因變量而言都有輕微的非線性效應,因此肯定不能直接將它們放入迴歸模型。作者接著對這三個變量進行了交叉列表分析:

迴歸分析的正確打開方式

結果表明,當x1取值固定時,x2的變化會導致y發生同等比例的變化。然而當x2取值固定時,x1對y的影響卻較為混亂。因此,非線性的關鍵問題在x1 。在這種情況下,作者嘗試了許多非線性的模型(對數、指數、二次),擬合效果仍然不好。最終,作者將x1取值的中間三類設定為啞變量,才最終解決了問題。

作者指出,z = f (x1)貌似幫助我們更好地理解了自變量,但由於我們沒有深究f的具體含義,這個等式事實上就已經為此後的謬誤埋下了伏筆。對於兩個自變量的迴歸分析已經如此大費周章,那麼將一堆變量“扔”進迴歸模型無異於對研究者時間的謀殺。由於二分變量的信息噪音更多而有效信息更少,Probit和Logit模型將比常規線性迴歸更為難解。因此,作者斷言,真正謹慎的政治科學研究不能多於三個自變量。

四、迴歸分析的正確打開方式

作者指出,統計工具對於社會科學研究確實是必不可少而又至關重要的。然而,研究者在使用統計工具時往往會本末倒置:他們只關注運算結果中的係數與顯著性,卻忽視了模型設定本身的正當性。在迴歸分析之前,研究者必須回顧既有的規範理論,並仔細查驗數據的真實趨勢。

作者強調,當研究者發現自己不得不將一堆數據都“扔”進迴歸模型以“控制變量”時,那麼很可能是數據本身的同質性出了問題:研究者極有可能把不同類別的觀測值混在了一起。對此,研究者必須把觀測值進行有意義的再分類。龐大而繁雜的迴歸列表雖然漂亮,但在同質性基礎上的小而精的統計分析才是科學進步的真正基石。

編後記:

這篇文章對於定量研究的初學者而言無異於一記警鐘,相信很多童鞋和小編一樣都曾是“扔”變量、“跑”迴歸的擁躉,讀完之後是不是出了一身冷汗呢?然而,小編認為,“發現可能的關係”是“準確測量效應”的基礎,因此實驗性地“跑”迴歸並非完全不可取,但最終呈現的模型則一定要經得起考驗。對於這個話題,讀者朋友們是不是也有很多想法不吐不快呢,歡迎大家踴躍拍磚。

微信號:zhengwenguanzhi


分享到:


相關文章: