迴歸分析的正確打開方式

2019-02-17 20:02:32 品質人生質量之音

Christopher H. Achen. Let's Put Garbage-Can Regressions and Garbage-Can Probits Where They Belong [J]. Conflict Management& Peace Science, 2005, 22(4):327-339.

ChristopherH. Achen，美國藝術與科學院院士、美國政治學會方法分部首任主席、普林斯頓大學政治學系羅傑威廉姆斯講席教授、政治學定量研究方法重要奠基人。他的研究方向包括實證民主理論、美國政治、比較政治和政治學方法論。

近期，《耶魯大學比較政治學書單》得到了讀者朋友們的喜愛與好評。細心的讀者可能已經發現，位列這份書單榜首的既不是經典教材，也不是前沿成果，而是一篇殺氣騰騰的“檄文”。在這篇文章中，作者將那種常見的、把一大堆變量放入模型“跑”迴歸的研究方法痛斥為“垃圾桶迴歸”，聲稱這些研究結果本身也將被掃進統計學的垃圾桶。那麼，作者何以得出如此驚世駭俗的結論，他大聲疾呼的目的又在何處呢？政文觀止編輯部特將這篇文章編譯出來，與讀者分享作者的才華、豪情與憂思。

一、被濫用的迴歸分析

作者指出，在當今的國際政治研究中，民主和平論等重要理論的檢驗與發展都離不開統計數據，甚至許多科學理論是直接從數據中發現的。對於不同的數據類型的計算目標，統計學已經發展出最小二乘法、最大似然估計、貝葉斯估計、廣義矩估計、穩健標準差等紛繁複雜的統計工具。然而，在作者看來，許多實證研究中的統計分析是非常“無腦”的：研究者將所有的疑似變量都“扔”進迴歸模型，通過迴歸係數和顯著性來判斷自變量是否有效，再加入控制變量來排除其他因素的影響。最終，研究者自認為構建起一個足夠複雜的模型，並用一堆有顯著性的變量來證明自己的假設。作者認為，這種方法不僅不符合學術規範，而且明顯地違背科學。

既有的研究充分說明，這種粗暴的迴歸分析無法解決間接關係和三角因果結構（triangular causalstructure）。作者則進一步強調，這種迴歸分析不僅不能完整地揭示變量間的真實關係，甚至會得出完全錯誤的因果效應。在進行實例演算前，作者強調，定量研究者幾乎把如下兩個誤解當成了定理：首先，他們認為，把控制變量放入迴歸模型就能真的控制它們的影響，從而得到自變量的合理係數。其次，他們認為，把一系列的自變量放入迴歸模型就能得出它們各自對因變量的效應，而從迴歸係數和標準差的數值上則可以判斷出各個自變量的重要性，進而比較自變量所代表的不同假設的適用性。對此，作者聲稱，他可以讓迴歸分析的係數與真實情況恰好相反，從而讓這兩個誤解不攻自破。

二、不可能的實例？

為了證明自己所言非虛，作者構建瞭如下這個數據集：

其中，x1和x2是真正的解釋因素。直觀可見，x1對因變量y的效應有著輕微的非線性特點。z是有關x1的某種函數，即z = f (x1)，函數圖像如下：

不難發現，y = z + 0.1x2，可見因變量可以完美地被自變量解釋，而且呈現一種非常簡單的線性關係。顯然，這種情況下R2=1。

根據統計學原理，我們可以將等式改寫成迴歸方程：y= α + β1z + β2x2 + u。無疑，此時的迴歸結果為：ˆα = 0，ˆβ1= 1，ˆβ2 = 0.1，R2=1。然而，真正的解釋因素是x1和x2 ，因此，完整的迴歸方程是：y = α + β1f(x1)+β2x2 + u 。根據此前的兩個“偽定理”，所有的自變量和控制變量都已經放入模型，迴歸分析的結果應當是準確而理想的。事實真的如此嗎？作者分別對x1、x2以及兩者同時進行了迴歸，結果如下（括號內為標準差）：

從參數來看，這三個模型的R2和顯著性（t檢驗）都尚可，然而對比原方程y = z + 0.1x2 ，作者有了驚人的發現！最終模型中，x2的影響效應被放大了28倍，而且係數由正變負！

作者強調，這種錯誤並不是由樣本數量和隨機誤差造成的，假如對錶1進行反覆抽樣並生成新的大數據集，其運算結果最終也是如此。由此可見，這種“垃圾桶迴歸”不僅“無腦”，而且非常危險，有可能會嚴重誤導社會科學的發展。

三、很絕望，能怎麼辦？

社會科學中的許多變量之間都有著或多或少的非線性關係，在不廢除線性迴歸分析的前提下，我們該如何避免上文中的嚴重謬誤呢？作者認為首先應當訴諸規範的理論模型。研究者如果熟悉既有的相關理論，那麼他對於何處可能出現非線性關係應該瞭然於胸，因此就不該將所有的疑似變量都“扔”進迴歸模型。在此基礎上，研究者應當在迴歸分析前仔細的檢查和判斷數據的真實趨勢。

以上文的數據集為例，作者畫出了因變量之於兩個自變量的散點圖：

顯然，這兩個自變量對於因變量而言都有輕微的非線性效應，因此肯定不能直接將它們放入迴歸模型。作者接著對這三個變量進行了交叉列表分析：

結果表明，當x1取值固定時，x2的變化會導致y發生同等比例的變化。然而當x2取值固定時，x1對y的影響卻較為混亂。因此，非線性的關鍵問題在x1 。在這種情況下，作者嘗試了許多非線性的模型（對數、指數、二次），擬合效果仍然不好。最終，作者將x1取值的中間三類設定為啞變量，才最終解決了問題。

作者指出，z = f (x1)貌似幫助我們更好地理解了自變量，但由於我們沒有深究f的具體含義，這個等式事實上就已經為此後的謬誤埋下了伏筆。對於兩個自變量的迴歸分析已經如此大費周章，那麼將一堆變量“扔”進迴歸模型無異於對研究者時間的謀殺。由於二分變量的信息噪音更多而有效信息更少，Probit和Logit模型將比常規線性迴歸更為難解。因此，作者斷言，真正謹慎的政治科學研究不能多於三個自變量。

四、迴歸分析的正確打開方式

作者指出，統計工具對於社會科學研究確實是必不可少而又至關重要的。然而，研究者在使用統計工具時往往會本末倒置：他們只關注運算結果中的係數與顯著性，卻忽視了模型設定本身的正當性。在迴歸分析之前，研究者必須回顧既有的規範理論，並仔細查驗數據的真實趨勢。

作者強調，當研究者發現自己不得不將一堆數據都“扔”進迴歸模型以“控制變量”時，那麼很可能是數據本身的同質性出了問題：研究者極有可能把不同類別的觀測值混在了一起。對此，研究者必須把觀測值進行有意義的再分類。龐大而繁雜的迴歸列表雖然漂亮，但在同質性基礎上的小而精的統計分析才是科學進步的真正基石。

編後記：

這篇文章對於定量研究的初學者而言無異於一記警鐘，相信很多童鞋和小編一樣都曾是“扔”變量、“跑”迴歸的擁躉，讀完之後是不是出了一身冷汗呢？然而，小編認為，“發現可能的關係”是“準確測量效應”的基礎，因此實驗性地“跑”迴歸並非完全不可取，但最終呈現的模型則一定要經得起考驗。對於這個話題，讀者朋友們是不是也有很多想法不吐不快呢，歡迎大家踴躍拍磚。

微信號：zhengwenguanzhi

分享到:

閱讀更多 品質人生質量之音 的文章

關鍵字: 控制變量迴歸社會科學

線上呈現全民參與——“假期雲考古”引燃空前觀看潮

截至5月6日上午10點，“中國文博”＃全國十大考古新發現＃話題的閱讀量7555.3萬、今日頭條＃發現考古＃閱讀量5737.5萬、央視新聞＃雲考古看寶藏＃3214.5萬及＃雲考古4000多年前古都遺址＃602.3萬、微博“陝視新聞”＃2019年度全國十大考古新發現＃3560.5萬、

宮廷技藝，定製雙瓏原著專屬府門之儀

鏨刻，是中國一門古老的手藝，是在較強延展性的金屬上，用鐵質鏨頭，刻畫出圖案。從曾經出土的青銅器和金銀器可以判斷，鏨刻已經延綿了數千年的歷史。孟德仁先生是北京宮廷造辦處傳統金屬鍛鏨技藝第三代傳人，自20歲入行，到花甲古稀，他用50年的時光守護著"國家非物質文化遺產銅鏨工藝"。

陽光的湖泊與夜雨的憂傷

不去聽朋友說詩人的身份經歷並不是拒絕瞭解詩人，實則是沿襲我的習慣:寫讀詩心得時，只從看到、讀到的詩出發，在其詩作中發現詩，在其詩中來品讀人。

精品連環畫《哪吒鬧海》

如果覺得不錯，點屏幕右上角的"…"分享到朋友圈

精品連環畫《雙城記》2

接續：補：如果覺得不錯，點屏幕右上角的"…"分享到朋友圈

第四屆中國書法蘭亭獎“終身成就獎”——尉天池等3人

第四屆中國書法蘭亭獎“終身成就獎”《論書卷氣》一文獲全國首屆書法蘭亭獎理論獎，曾被中國書協學術委員會聘為第一屆學術委員。

精品連環畫《雙城記》

如果覺得不錯，點屏幕右上角的"…"分享到朋友圈

我國最神祕的姓氏，百家姓沒有記載，他們的祖先在斯里蘭卡

中國有很多姓氏，我們通常能接觸到的姓氏有幾百個。根據2018年數百個姓氏的統計，“王”姓位居榜首，“李”姓緊隨其後，“張”姓居第三，而我們經常看到的其他姓氏也不少。但是，這個姓氏在古代是我們祖先傳下來的。姓氏不能改。更改姓氏是對我們祖先的不尊重。不過，姓氏後面的字是可以改變的。

詩詞｜立夏：綠樹陰濃夏日長，樓臺倒影入池塘

綠樹陰濃夏日長，樓臺倒影入池塘。水精簾動微風起，滿架薔薇一院香。“入池塘”著一入字，用得亦是極好。夏日午時，晴空驕陽，池水清澈見底，映在池塘中的樓臺倒影，也那樣清晰。

精品連環畫《五朵金花》

連環畫在線看連環畫在線看

中國南方最重男輕女的地區，女孩不入祠堂，名字不入族譜！

人們總是以為，重男輕女的思想，以北方為重，尤其是河南、山西、山東等地，大底是因為這些地方受傳統文化和傳統風俗習慣的影響更深，總認為只有兒子才能傳宗接代，讓整個家族人丁興旺，也只有兒子才能夠夠光宗耀祖，光耀門楣。

Hi視頻丨漁民人人能作畫小漁村變“畫村”

在榮成石島的港灣街道除了“百年花村”之外，還有一個風景美如畫，妙筆又生花的“畫村”——牧雲庵。步入牧雲庵村，宛如走進了一個五彩繽紛的美術新天地，一幢幢新瓦房的牆壁上繪製著巨幅壁畫，家家戶戶的映壁上都用圖畫裝點一新，絢麗多姿，光彩奪目。

七律：山居(二一七)

鄉村祖宅靠河邊，明月清風不要錢。晚上悠閒常把酒，早間沒空擼遊船。牛羊滿地超三百，雞鴨成群過十千。環境優良山水秀，逍遙自在比神仙。

七律《腹有詩書氣自華》

心無貪念魂魄定，腹有詩書氣自華。腹有詩書氣自華【華:六麻，二十二禡】

滿江紅《讀史感懷》

千萬裡，獨騎單行，過關斬將;功業累累何豈數，凌雲壯志蔑豪強。驚濤駭浪【浪:第二部，第二部】

金觀察｜淮陽平糧臺城址：“以中為尊”，開中國城建規劃先河

在中國，從城市到鄉村，大家看到的房屋建築幾乎都是方方正正、坐北朝南、左右對稱。走進該城址考古發掘現場可以清晰地看到，整座古城是方方正正的格局，正中間有一條道路貫穿南北，城內佈局以這條南北中軸路相隔、規劃嚴整。

有故事的自貢

聞鍾記郵有故事的自貢。知道自貢這個城市，源自一種井，叫自流井，不用開鑿就能出滷水，是千年不斷地井鹽文化。

《白鹿原》蕩婦田小娥之死，作者寫到恍惚，醒來說了十二字很扎心

藍田縣檔案館有一件鎮館之寶，那就是民國藍田縣誌，因為編者牛兆濂是關學的最後一位繼承人，所以藍田縣誌別稱牛志，蜚聲海內外。

各省萬氏字派表

良常一，江西省1，江西南昌，輩分是橫學文家正德齊忠立怡本

一樣的愛書情懷

萬氏家族和甘鵬雲的交往之二

仁者愛人也

“仁”，是華夏民族的一個重要道德範疇。《尚書•商書•太甲下》記載：“民罔常懷，懷於有仁。”意思是說，唯有仁德才是民心所歸，人心所向。“仁”，是孔子心目中的道德極致，也是儒家思想的核心理念。孔子從不同角度對“仁”進行闡釋，把“仁”發揚為一種至高人生境界。

七律•初夏梅熟寄知己

江南入夏熟青梅，濺齒猶酸手上杯。星眸彈玉碎琴臺。曾經對面相無語，況復天涯互度猜。許我焚香烹濁酒，殷勤青鳥寄蓬萊。

「愙齋書法」王羲之《孝女曹娥碑》最好的拓本

王羲之深受其孝行所動，因此為她也寫了碑文，此時的他年邁體弱多病，此碑絹本手跡在遼寧博物館收藏，雖然自己身體狀況不好，但是筆法還是剛勁有力，字體帶有隸書之意，字體寬平，無華麗而古樸自然，用筆大多是不藏鋒，字與字之間錯落有致，整體排列工整勻稱。

七言：《鄉愁》

花開花落總因風，情少情多何必爭。月下相思無夢夜，他鄉最是恨蛙鳴。

「愙齋書法」鋼筆書法作品欣賞：歐陽詢《九成宮碑》

硬筆臨歐陽詢《九成宮碑》

「愙齋書法」明初宋濂楷書欣賞

宋濂，初名壽，字景濂。元末明初著名政治家、文學家、史學家、思想家，與高啟、劉基並稱為“明初詩文三大家”，又與章溢、劉基、葉琛並稱為“浙東四先生”。宋濂楷書《和馮子振韻》

詩一樣的李冶：心遠浮雲知不還，心雲並在有無間

今晚住家小區完全籠罩在今年立夏以來的第一場暴雨中，我聽著狂風雨打雨滴落聲，閒著無事，又端起了被自己遺忘多日的《唐詩評選》，順手一翻，居然是她這樣的一所首詩，詩人名李冶，廿五年之前讀過唐詩的些許記憶，只記得她是位女詩人。

《好嘴楊巴》：個性獨特的奇人奇事，妙趣橫生的文化小說

今天要講的書是馮驥才的《好嘴楊巴》。《好嘴楊巴》是一本短篇小說合集，分俗世奇人和怪事奇談兩個部分。總結:《好嘴楊巴》是一本短篇小說合集，從奇入手。

《好嘴楊巴》：馮驥才經典文學裡的俗世奇人奇事

「愙齋書法」手抄經典第221期——陳繼儒《小窗幽記》

一軒明月，花影參差，席地便宜小酌;入山採藥，臨水捕魚，綠樹陰中鳥道;掃石彈琴，捲簾看鶴，白雲深處人家。—

艙籬.醉飲.風騷.潮歌.相思

艙籬文/章子建湖為杯盞水為酒，舟溢風中幾孤愁。又是今霄共此時，奈何艙籬鎖自由？醉飲文/章子建醉飲當歌誰人聽風訴聲曳扣窗欞。琴絕音婉今霄月，光陰如夢又匆匆。風騷文/章子建風騷易往詩仙事，璀璨星辰和北斗。欲問古今誰長在，李白東坡難聚頭.

七絕·秦始皇禮讚

君不見

在志怪和志人之間來回切換，魏晉筆記體小說為何會誕生？

前言中國小說有兩個大的系統，一個是文言文小說，一個是白話文小說。魏晉南北朝時期，白話文還沒有出現，只有文言文小說，這個時候的文言文小說被我們稱為筆記體小說。為什麼取這個名字？

詩歌《夜隨想》作者：樑增亮

夜

坐山吵窯-連環畫出版社2011 水天宏繪

坐山吵窯-連環畫出版社2011

河南話，到底是土還是雅？

原創

撕下那些偽精英、偽貴族們的畫皮

在上海的一次座談會上，有個中年學者，他的發言大家都聽不懂，因為他是反覆地在講兩個歷史人物，一個叫子先，一個叫西泰，大家都不知道他在講什麼。

最早的杭州西湖全景畫作——南宋.宮廷畫家李嵩《西湖圖》精賞

李嵩

72歲餘秋雨給湖畔大學30名企業家的箴言

餘秋雨和湖畔大學的學生聊儒釋道，面向30名頂尖企業家談“孔子、老子、佛祖能教給我們什麼”。比如我認識在美國生活的一對夫妻，丈夫是中國人，他們的裂痕首先是每個清明節丈夫都要回來祭祖，我們在座的人一定知道原因何在，他們家有兄弟姐妹，趁這個機會聚一聚，這牽扯到中國的精神價值。

柳永詞中的反叛精神，主要體現在哪些方面？

說起柳永，大家最為熟悉的便是那首高中語文課本中的《雨霖鈴》。便縱有千種風情，更與何人說?這首詞文辭雅麗，韻味悠長，朗朗上口，飽含悽美之情，筆者大愛。

對聯題李煜

做主則春花覺少，為侯而秋月猶多，意氣兩參差，惜銅雀東風，吹皺簾波飛宿雨；填詞而玉砌方華，治國則雕欄不在，襟懷多婉約，付金陵桂棹，研勻江水盪寒笙。

「分享」叔本華：獨立思考的人，是自己精神領域的君主

論獨立思考哪怕是再大的圖書館，如果它藏書豐富但卻雜亂無章，其實際用處就反不如那些規模雖小卻條理井然的圖書館。同樣，如果一個人擁有大量的知識，卻未經過自己頭腦的獨立思考而加以吸收，那麼這些學識就遠不如那些雖所知不多但卻經過認真思考的知識有價值。

魯迅到底說過這些話麼？

我們經常在網上能看到“魯迅說過xx”等等，但事實上魯迅也許沒說過那些話。然而魯迅先生也確實說過很多經典的話。我不是很仔細的整理了一些，所以也有可能裡邊有一句半句的不是出自魯迅先生筆下。

「薦書」《追憶那些年的絕代芳華》：她們給那個年代添上了一抹亮麗的色彩

《追憶那些年的絕代芳華》作者介紹黃紫彤:本名黃鴻涯，墨香學堂聯合創始人，中國傳統文化藝術傳播者，女學研究教育踐行者。曾在中央人民廣播電臺《廣播歌選》編輯部，全國婦聯心繫系列活動組委會宣傳部任職。

宋拓東漢《西嶽華山廟碑冊》

《西嶽華山廟碑》冊，拓本38頁，剪條裝裱，每頁3行，行6字。縱22

寫歐體入十二屆國展

作品散見於

從奴隸到伊尹

寫歷史文章非常煎熬，過程枯燥不說，還看不到希望，我是全憑一腔熱血支撐著。因為白天要上班，晚上回家又很晚，只能抽出很少的時間構思文章，故進度超級慢。本來計劃著一週至少更新一篇，現在倒好，10天出不了一篇。蒼天哪，怎樣才能提高寫作效率啊。寫歷史文章還有一個難點，處理史料的問題。

讀《平凡的世界》讓人淚流而下

路遙先生所著的《平凡的世界》這部文學作品，帶給我的閱讀體驗很深，讓我連續看了幾遍都不覺累，每次重讀都會有新的收穫。

當詞人的審美情感比較平和，所選擇的情感符號相對來說也比較溫馨

當詞人的審美情感比較平和時，所選擇的情感符號相對來說也比較溫馨。蘇軾就此詞曾雲:“後主既為樊若水所賣，舉國與人，故當慟哭於九廟之外，謝其民而後行，顧乃揮淚宮娥，聽教坊離曲。

三國裡一位雄主，竟然被認為是嶽不群似的人物，會是誰呢？

文

迴歸分析的正確打開方式

相關文章:

線上呈現 全民參與——“假期雲考古”引燃空前觀看潮

宮廷技藝，定製雙瓏原著專屬府門之儀

陽光的湖泊與夜雨的憂傷

精品連環畫《哪吒鬧海》

精品連環畫《雙城記》2

第四屆中國書法蘭亭獎“終身成就獎”——尉天池等3人

精品連環畫《雙城記》

我國最神祕的姓氏，百家姓沒有記載，他們的祖先在斯里蘭卡

詩詞｜立夏：綠樹陰濃夏日長，樓臺倒影入池塘

精品連環畫《五朵金花》

中國南方最重男輕女的地區，女孩不入祠堂，名字不入族譜！

Hi視頻丨漁民人人能作畫 小漁村變“畫村”

七律：山居(二一七)

七律《腹有詩書氣自華》

滿江紅《讀史感懷》

金觀察｜淮陽平糧臺城址：“以中為尊”，開中國城建規劃先河

有故事的自貢

《白鹿原》蕩婦田小娥之死，作者寫到恍惚，醒來說了十二字很扎心

各省萬氏字派表

一樣的愛書情懷

仁者愛人也

七律•初夏梅熟寄知己

「愙齋書法」王羲之《孝女曹娥碑》最好的拓本

七言：《鄉愁》

「愙齋書法」鋼筆書法作品欣賞：歐陽詢《九成宮碑》

「愙齋書法」明初宋濂楷書欣賞

詩一樣的李冶：心遠浮雲知不還，心雲並在有無間

《好嘴楊巴》：個性獨特的奇人奇事，妙趣橫生的文化小說

《好嘴楊巴》：馮驥才經典文學裡的俗世奇人奇事

「愙齋書法」手抄經典第221期——陳繼儒 《 小窗幽記 》

艙籬.醉飲.風騷.潮歌.相思

七絕·秦始皇禮讚

在志怪和志人之間來回切換，魏晉筆記體小說為何會誕生？

詩歌《 夜 隨想 》 作者：樑增亮

坐山吵窯-連環畫出版社2011 水天宏 繪

河南話，到底是土還是雅？

撕下那些偽精英、偽貴族們的畫皮

最早的杭州西湖全景畫作——南宋.宮廷畫家 李嵩《西湖圖》精賞

72歲餘秋雨給湖畔大學30名企業家的箴言

柳永詞中的反叛精神，主要體現在哪些方面？

對聯題李煜

「分享」叔本華：獨立思考的人，是自己精神領域的君主

魯迅到底說過這些話麼？

「薦書」《追憶那些年的絕代芳華》：她們給那個年代添上了一抹亮麗的色彩

宋拓東漢《西嶽華山廟碑冊》

寫歐體入十二屆國展

從奴隸到伊尹

讀《平凡的世界》讓人淚流而下

當詞人的審美情感比較平和，所選擇的情感符號相對來說也比較溫馨

三國裡一位雄主，竟然被認為是嶽不群似的人物，會是誰呢？

魚露的正確用法是什麼？

請在五秒內說出一個你家鄉的代表性美味菜餚，是什麼菜？

你的家鄉都有哪些地方特產和美食，離開這個地方就沒有那種口感和味道了？

你們當地的好吃且不貴的美食有哪些？

你認為最值得自己推薦的本地美食是什麼？好在哪裡？

陽江有哪些特產美食？哪些美食比較好吃？

高州什麼小吃好吃？

你經常想吃和愛吃的一道菜是什麼？有什麼特別的嗎？

廣州廚師怎麼做清湯大鵝？

如何燜牛腩？

潮汕牛雜煲怎麼做？看起來很香？

廣東順德的美食有什麼？

想做千層糕，但不想加椰汁，有其他的代替嗎？

高州有什麼特色美食？

怎樣使豬肚更脆？

潮州魚生蘸醬如何調製？

汕頭、潮州和揭陽有哪些美食？

哪裡的牛肉丸最出名？

鹹蛋蒸肉餅好吃嗎？怎麼做呢？

只能用三個字來說明你家鄉最有代表性的美食，你會用哪三個字？

潮汕美食揚名世界，那潮汕人家裡都吃些啥呢？

你家鄉的代表菜是什麼？

哪位師傅有脆皮五花肉的脆皮配方推薦？先謝謝了(^～^)？

茂名都有哪些土特產？

廣東人家常菜鼓汁蒸排骨怎麼做？

你的家鄉都有哪些既有名又好吃的傳統小吃？

粵菜中最具代表性的四菜一湯一點心，你認為有哪些？