【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


作品簡介

【作者】Justin Grimmer,斯坦福大學政治學系教授。主要研究興趣是美國國會、選舉、社交媒體和數據科學等。

【編譯】蘭星辰(國政學人編譯員,北京大學)

【審校】虞敷揚、李雯琿

【排版】賀奕

【來源】Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 21(3), 267–297. Cambridge University Press.

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


期刊簡介

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


《政治分析》(Political Analysis)發表在政治學研究方法(包括定量和定性方法)領域具有原創性並有重大進展的論文。它是美國政治學協會政治方法學會的官方期刊,由劍橋大學出版社出版,2018年的影響因子為2.548,現任編輯為美利堅大學(American University)政治學系榮譽教授Jeff Gill。

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


文本作為數據:政治文本自動分析方法的前景和陷阱

Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


Justin Grimmer

內容提要

政治和政治衝突經常通過語言的形式表達,學者們也早就認識到了這一點。但分析一定規模的文本的高成本阻礙了文本分析在政治學研究中的應用。自動文本分析(automated text methods)的前景在於,它能降低分析大規模文本集合的成本。但是使用它的陷阱是它不能替代對文本的仔細深入的思考和閱讀,而且它也需要大量的以特定研究問題為導向的驗證。本文概述了一系列的自動文本分析的新方法,驗證這些模型的結果的指南、糾正了文獻中的概念的混淆和錯誤。本文認為,為了使得自動文本分析方法成為政治學家的標準工具,政治方法學者必須貢獻新的分析和驗證的方法。

【關鍵詞】文本分析

文章導讀

01

介紹

語言是政治和政治衝突的媒介。例如,候選人在選舉中爭論和陳述他們的政策取向。一旦被選出,代表們寫作和辯論法案。法律一旦通過,官僚們在發佈法案之前徵集評論;國家經常性地協商和簽署協定,用語言表達動機和相對權力;新聞報道詳細地記錄著每天的國際事務;甚至恐怖組織也都通過招募材料、雜誌和公共陳述表達自己的偏好和目標。這些例子表明為了理解政治是什麼,我們需要了解政治行為體說的和寫的是什麼。但是由於政治文本的規模極其龐大,學者們在通過文本對政治做出推斷時非常困難。甚至學者們幾乎不可能手動閱讀一個一般大小的語料庫的文本。僱人閱讀這些文本也很昂貴。結果就是除了一些有充足資金支持的項目,分析大規模的文本集合基本不可能。

但自動文本分析方法能以很低的成本分析大規模的文本集合。在政治學的各個子領域,學者們已經發展並導入了一些促進對政治進行實質性的重要的推斷的大規模文本分析方法。本文將會概述這些方法並糾正常見的概念混淆和錯誤,為在社會科學研究中使用自動文本分析方法提供指導。本文強調自動文本分析方法應該被認為是增強人類仔細和思考性分析能力的工具,它不能替代人對文本的仔細思考和閱讀。加之這些方法都是不正確的語言模型,這就意味著不能保證任何一種方法在新的數據集上有良好表現,因此就需要大量和廣泛的

驗證(validation)

下圖說明了使用自動文本分析的一般流程和本文的行文結構。首先是獲取文本,本文關注的主要是文檔(document)級的文本。有了文本之後本文概述了完成分類(classification)分級(scaling)這兩類任務的方法。以及對分析結果的驗證和注意事項。

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


02

四大原則

本文先給出了指導自動(定量)文本分析的四大原則:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


第一,所有語言的定量模型都是錯的——但是一些很有用

即使對語言學家而言,文本的數據生成過程都是個謎。如果一句話有著複雜的依存結構,隨著新的詞語增加,它的意思將會發生很大變化。語言的複雜性導致了所有的模型都不能對文本數據生成過程給出準確解釋。因此建立文本模型和政治學中更常見的進行因果推斷所建立的模型的有所差別。因果推斷模型的建立需要對數據生成過程有基本的瞭解,但是這在自動文本分析中很難做到。因此這就要求模型需要根據它在一些有用的社會科學任務上的表現來評估,比如它們是否幫助研究者將文本分入之前確定好的類別、發現文本的新的有用的分類方式等。

第二,定量方法幫助人類而非取代人類

自動文本分析方法的作用在於提高了人類的能力,而不是替代人類對文本的仔細閱讀和分析思考。對文本的深入理解是社會科學家在使用文本分析時的一大優勢。在文本分析時,需要將人工方法和自動方法結合。

第三,自動文本分析沒有全局最優方法

不同的研究問題、不同的數據集都需要不同的方法和模型。模型之間單純的比較沒有什麼意義,重要地是能找到結合不同模型的有效方法。

第四,驗證、驗證、驗證

有時模型的結果可能是錯的,這就必須進行驗證。驗證方式有很多,對於監督學習,學者需要說明監督學習方法能夠可靠地複製人類的編碼。對於無監督學習,學者需要結合實驗和實質性的統計證據說明這些測度在概念上和同等的監督學習模型一樣有效。

03

獲取文本

由於使用電子文本數據庫儲存文本越來越方便,政治學家能夠在各種各樣的文本集上使用自動文本分析方法,這包括媒體數據、議會演講、委員會聽證、協約或政治學論文等。文本通過UTF-8、Latin character或者XML等格式儲存在各類數據庫中。另外,網頁上的文本也隨著爬蟲技術的發展越來越易獲得。最難獲得的是儲存在檔案或者一些需要被掃描的書籍裡的文本,但是通過一些高質量的掃描器比如Optical Character Recognition軟件,也有可能將檔案材料轉換為計算機可讀的文本。需要注意的是在一些情況下,研究者需要聚焦他們所研究的問題相關的同一類文本,自動文本分析一般對文本的長度也有一定要求。通常報紙或者政黨綱領這類較長一些的文本比更短的陳述——例如對調查問卷的開放式回覆更容易分析。對於較短的文本或極大規模的文本,伴隨信息(accompanying information)對於分類或者分級模型的可靠表現十分必要。

04

降低複雜性:從詞到數

語言雖然很複雜,但並不是所有的信息都對分析有幫助。本文在這部分給出了降低文本複雜度,把文本轉換為定量數據的一套菜單(recipe)。在實踐中,這套菜單應該根據具體問題來修正。這套菜單分析的單位是文本(text)或

文檔(document),但對於其他單位的文本也可以適用。文本的集合被稱為語料庫(corpus)

降低文本複雜性的關鍵一步是忽略詞語的順序。儘管很容易的舉出改變詞彙順序改變句子意思的例子,但是在實證中這樣的例子比較少。因此,我們假定文檔是一個詞袋(bag of words),詞的順序不影響分析。詞彙的一個簡單的列表叫一元分詞(unigram),如果一元分詞不能傳達準確的含義,還可以通過二元分詞或者三元分詞保留某些詞序。如通過二元分詞“White House”將白宮和表示顏色的白房子區分開。

在丟棄了詞序之後,我們通過詞幹提取(stemming)來簡化詞彙。詞幹提取通過把詞彙映射到相同概念的詞根從而降低了文本的維度和複雜度。比如,family, families, families’, familial都通過詞幹提取變成了famili。語言學中的詞幹還原(Lemmatization)與詞幹提取類似,但是詞幹還原提取的單詞通常會是字典中的單詞,且提取後的單詞不一定會出現在原單詞中(比如將better和best詞幹還原為good)。詞幹提取的優勢在於計算速度比較快,且在大多數的應用中都適用。詞幹提取的算法有很多,其中Porter詞幹提取算法由於其優良的性質在詞彙簡化中經常使用。除了丟棄詞序,我們還經常丟棄停頓、標點、字母大小寫、表示語法的功能性詞彙和一些非常特殊的出現很少的詞彙。通常我們刪除語料庫中出現頻率小於1%和高於99%的詞彙。文本經過處理後,每個文檔i(i = 1, … N)被表示為一個計算了M個唯一的詞彙數量的向量Wi = (Wi1, Wi2,… WiM)。Wim表示了第m個詞彙在第i個文檔裡面出現的次數。它們的矩陣Wi1, Wi2,… WiM叫做

文檔術語矩陣(document-term matrix)。對於一般大小的文檔集合,這個矩陣大概有300-500個特徵(features)或者叫術語(term),並且矩陣大部分的元素將會是0(稀疏矩陣)。儘管以上的步驟導致了原來文本集很多信息被刪除,但是在應用中,學者已經發現以這種方式展示文本足以推斷出文本的一些有趣的特性。

除了上述方法外,在一些特殊的應用中,也有用數據表示文本的其他方法。例如,有學者在對聯邦黨人文集的分析中,為了推斷這些文章的作者,他們只計算了停用詞(stopwords)的數量,因為不同作者在使用停用詞上有明顯的風格差異。其他的通常使用的策略包括(1)一個詞彙在文檔中出現的指標而不是次數;(2)包括一些停用詞,例如表示性別的代詞;(3)特徵的子集(通過自動特徵提取或低維投影);(4)通過詞彙在文檔集的稀有度進行加權(經常被稱為tf-idf(term frequency–inverse document frequency),詞頻-逆文檔頻率加權)。也有學者根據不同問題設計了不同的方法。

05

文檔分入已知類別

文本分類是自動文本分析方法在政治學的最常見應用。例如,研究者想知道法案是關於環境的還是其他的;地方新聞是正面的還是負面的;國際聲明是挑釁的還是和平的等等。研究者的目標是推斷每個文檔的種類和所有文檔在不同種類的分佈。人工分類方法耗時耗力,但是自動文本分析可以減少人工分類的成本。本文介紹將文檔分入已知類別的字典和監督學習這兩種分類方法。

一、字典方法

字典方法使用關鍵詞在文本中出現的頻率對文本分類。例如,假設研究目的是測度報紙文章的語氣(正面或負面)。字典方法使用了一個帶有語氣分數的詞的列表和這些詞出現的相對頻率來測度一個文檔的語氣。每個單詞m(m= 1, … M)都會有一個分數,最簡單的情況下如果這個單詞是負面語氣則sm= -1,正面則s取值為1。字典方法用如下的簡單加權平均方法計算出任意一個文檔ti的語氣,其中Ni是第i個文檔的單詞數量。

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


ti經常被用來作為文檔語氣的連續型測度,但是它也可以被用來對文檔分類。比如根據它的正負將文檔分為正面語氣和負面語氣。詞典容易界定,詞典分類方法簡單易用且可以相互借鑑。但也要注意不同的詞在不同語境下的文本表達的意思和情感可能有很大差別。另外使用詞典分類方法也需要小心驗證。但由於詞典分類的驗證方法非常少,很多基於詞典的分類方法都有問題。本文認為有兩種改善詞典分類驗證的方式。第一是分類問題需要被簡化,如果學者用詞典對文檔進行二元劃分,那麼應使用作為黃金標準的人工驗證方式。第二,學者們應該把詞典方法的驗證視為無監督學習方法的驗證。

二、監督學習方法

字典方法在解決實際問題是有可能不適用,特別是當字典被應用在它本來所屬的領域之外的時候。監督學習方法成為了在字典方法在某一特定的研究領域的有力補充和替代。監督學習方法易於驗證。監督學習方法要求學者建立特定研究問題的清楚明確的、能夠和想要分析的概念一致的

編碼規則,找到充足的數據,建立訓練集應用監督學習方法,最後驗證模型的效果。手動分類的文檔被用來訓練監督學習模型。一般的結構是,訓練集有N個文檔,一共有K個分類,每個文檔i的類別用Yi來表示。整個訓練集被表示為Ytrain。Wtrain是特徵矩陣,監督學習方法假定有一個函數f描述了詞彙和類別的關係:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


每種算法都估計了f。f的估計被用來推斷測試集的性質:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


本文以樸素貝葉斯為例介紹了推斷詞彙和類別關係的算法。

根據貝葉斯法則,後驗概率可以成比例的表示為:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


其中

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


樸素貝葉斯假設給定分類,詞彙相互獨立,因此有下式成立:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


儘管這個假設很強且很有可能是錯的,但是模型仍然能夠利用文本足夠的信息進行分類。使用這個假設,可以得到後驗概率。

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


這個簡單的模型問題在於有一些詞彙在數據集中根本沒有出現,通常的解決方法是為每一個概率加上一點點的數量,即使用貝葉斯狄利克雷多項模型(Bayesian Dirichlet-Multinomial model)。樸素貝葉斯最大化下式得到f的估計:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


樸素貝葉斯符合上文的第一條準則。儘管特徵並不是條件獨立的,但是樸素貝葉斯確實被表明是一個有用的分類器。樸素貝葉斯只是文獻的一小部分,其餘的方法還有隨機森林(Random Forest)、支持向量機(Support Vector Machines, SVM)和神經網絡(neural networks)等。

除了樸素貝葉斯,本文還提出使用多模型的集成學習(Ensemble Learning)和測度比例(Measuring Proportions)提高學習的效果。

06

驗證

監督模型需要驗證,即比較機器編碼和人類編碼的結果。理想的驗證將數據分為三個子集,最開始模型在訓練集擬合,擬合好的模型在手動編碼的文檔——驗證集上驗證來評估模型的表現。最後的模型被用在測試集上完成分類任務。一般用機器學習常用的V折(V-fold)交叉驗證來進行模型評估。

07

無監督學習

字典和監督學習假定了充分界定的種類,但是在一些情況下研究者不能事先就界定好這些種類,此時需要使用無監督學習方法來發現這些種類。無監督學習方法的價值在於可以辨別理論上非常有用的、但缺乏研究的文本的組織結構。最廣泛使用的是全自動聚類方法(Fully automated clustering, FAC)

計算機輔助聚類方法(Computer Assisted Clustering)

08

全自動聚類方法

全自動聚類方法主要介紹了兩種。

第一種是單成員模型(Single membership models),單成員聚類模型估計了一個聚類,並用這個聚類近似的替代類別。模型包含了三個要素:一是文檔的相似性或者距離;二是作用於一個理想聚類的目標函數;三是最優化算法。本文簡要介紹了最常用的典型的K均值聚類算法。這一方法度量一個文檔Wi與聚類中心

μk的歐式距離:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


也可以使用其他的距離度量方式來計算距離,或者也可使用tf-idf對歐氏距離加權。K均值聚類的尋求每一個文檔接近它的聚類中心。這可以表示為如下的目標函數,其中I為示性函數(如果Ci= k則取值為1)

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


K均值聚類像其他的FAC算法一樣使用了漸進和迭代最優算法。計算機領域相關文獻中也有其他不同的聚類方法,且有一些使用了不同的距離度量方式、不同的目標函數、不同的最優化算法。本文不能給出一切皆準的指導,但是其他領域的各種算法在政治學領域一定要慎重使用。

第二種是混合成員模型(mixed membership model)。改善單成員模型輸出的一種方法是包括特定問題的結構(problem-specific structure)。主題模型(Topic models)是其中最常用的方法。主題模型屬於貝葉斯生成模型,將特定問題的結構編碼為類別的估計。本文介紹瞭如下圖所示的隱含狄利克雷分佈(Latent Dirichlet Allocation,LDA)、動態多主題模型(Dynamic Multitopic Model)以及表達議題模型(Expressed Agenda Model)。其中後兩個是政治學家Quinn和Grimmer等人提出的,並已經在政治學領域得到了應用,具體可以參考Quinn et al.(2010)和Grimmer(2010)。

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


主題模型都有兩個廣義的特徵。第一個特徵這些模型定義了主題。主題被定義為在單詞(words)上的概率質量函數。對於一個主題k,我們一個M×1的向量θk來表示概率分佈。其中θmk表示第k個主題用第m個單詞的概率。比如在國會演講中,一個主題可能是對健康保障的辯論,那麼這個主題經常使用的詞很可能就有health, care, reform, insurance等。第二個特徵是這些模型都如上圖所示有一個層級(hierarchical)結構。本文以最廣泛使用的主題模型LDA的生成過程為例解釋了這兩個特徵。LDA屬於詞袋模型,該模型假定每一個文檔都是主題的混合,對於每一個文檔,πik表示這個文檔i屬於主題k的比例。我們假定i服從參數為α的狄利克雷先驗:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


在每個文檔內,單詞都根據主題的分佈來生成,假設一個文檔有Ni個單詞。LDA通過兩步生成每一個單詞。為了生成第i個文檔的第j個單詞,第一步,先生成這個單詞的主題

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱

,它服從多項分佈。


【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


在給定主題後,單詞被生成。即如果第i個文件裡的第j個單詞被分配到第k個主題,我們可以從它對應的主題中得到:

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


(想更深入的瞭解LDA模型的讀者,可以參考來自靳志輝《LDA數學八卦》的下圖和原文,譯者注)

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱


09

計算機輔助聚類方法

第二類分類方法是計算機輔助分類方法(CAC)。該方法由本文作者之一的Grimmer和哈佛大學教授加里金提出。方法的技術細節比較複雜,但思想易於理解。儘管事先確定特定數據集中的文檔有效聚集的假設非常困難,但事後評價特定文本的組織(聚類)卻很容易,所以可以通過CAC在大的聚類空間上進行有效搜索進行分類。步驟是,首先,在數據集應用各種各樣的FAC方法。不同的方法會改變相似性(距離),目標函數和優化算法的定義,以提供多種方式來組織文檔。然後,Grimmer and King(2011)展示瞭如何將分類嵌入二維空間以使得如果兩個聚類以相似的方式組織文檔,則兩個聚類會在該空間中接近。使用這個空間,Grimmer and King(2011)提出了一種探索方法,可以輕鬆地搜索其中包含的方法以及數百萬其他因數據相似組織的組合而產生的聚類。這些無監督方法的技術細節和驗證方式可參考原文和原文引用的文獻。同時本文指出,政治學界對自動文本分析中監督學習和無監督學習的優劣的爭論並無必要,監督學習和無監督學習只是解決不同的問題。如果研究者事先已經有了明確的類別,那麼他使用監督學習方法,而如果對文本的類別不瞭解,那麼最好使用無監督學習。

10

在文本中測量隱含特徵:對政治行為體分級

自動化內容分析方法最有前途的應用之一是在意識形態空間中定位各種政治行為體,這已經在美國政治領域得到了應用。使用現有數據估算政治行為體的位置通常很困難有時甚至根本不可能。但使用文本將政治定位政治參與者的政治空間的方法有助於檢驗一些重要的政治理論。

本文介紹了兩種使用文本對政治行為體分級(scaling)的方法。一種是Laver,Benoit和Garry(2003)的方法是一種監督方法(類似於字典方法),用於行為體使用的詞彙對其定位。這篇文獻介紹了類似詞典方法的wordscores這種全自動分析方法來定位美國國會的政治行為體。第二種方法是在空間中定位行為體的無監督方法(Monroe and Maeda 2004;Slapin and Proksch 2008)。Splapin and Proksch(2008)開發了wordfish方法,該方法屬於一種泊松-項目反應模型(Poisson- IRT model)。

本文指出,該領域不斷增長的文獻具有檢驗政治空間理論的廣闊前景。最近的幾篇論文為進行分級提供了重要的技術貢獻和改進的方法(Martin和Vanberg 2007; Lowe 2008; Lowe et al. 2011)。這些論文很重要,但最近的論文隱含地將分類方法的目標等同於複製專家意見(Benoit,Laver and Mikhaylov 2009;Mikhaylov,Laver and Benoit 2010)或使用非文本數據進行充分驗證的分類(Beauchamp 2011)。測度的可信性當然很重要,但是如果目標是複製專家意見或已經存在的分級,則沒必要使用文本方法。簡單地由專家推斷或現有分級就足夠了。

11

結論

自動文本分析方法提供了研究各種問題的工具。方法適用範圍廣泛,包括從對文檔分類到現有的或尚待確定的類別,到在政策空間中對政治行為體分級。本文強調任何一種方法的表現都是隨著不同情況而變化的。而且由於文本分析方法必然是不正確的語言模型,結果始終需要仔細驗證。對於監督分類方法,需要驗證機器的分類重複了手工編碼。對於無監督的分類和分級方法,需要驗證測度確實符合研究的概念。自動文本分析相關文獻的方法遠遠超出了本文討論的方法。其他領域的教科書很好地概述了本文未討論的方法,包括自然語言處理工具。本文還建議讀者閱讀使用不在本文列舉的方法的政治學論文深入瞭解(如Schrodt 2000)。本文認為接下來對自動文本分析方法研究有重要的三點:

第一,新文本需要新方法:也許未來最明顯的研究方向是開發新的針對文本的統計模型,這也在政治學學界內部開始進行。這些模型補充計算機科學,統計和機器學習的眾多文獻。確實,分析政治學中的新文本數據將有必要開發新的方法。但隨著政治學方法學家開發針對特定問題的工具,他們也應該考慮方法的一般適用性。

第二,自動文本分析方法的不確定性:測量自動文本分析方法的不確定性仍然是最重要的挑戰之一。將文本作為數據進行定量分析的最大優勢之是估計測量中不確定性的能力。目前的研究已經在測量不確定性方面有了進展,尤其是監督學習方法。如Hopkins and King(2010)展示了模擬外推(simulation- extrapolation SIMEX)如何允許編碼人員分類訓練文檔時一定程度的不確定。同樣,Benoit,Laver and Mikhaylov(2009)使用SIMEX將基於文本的分級誤差納入廣義線性模型。解決不確定性可以使用更復雜的貝葉斯統計模型、為算法確定快速可靠的計算模型或方法,或者包括人類在分析時產生的不確定性。

第三,新領域:新文本和新問題:除了方法論創新之外,還有很多現在可以使用自動文本分析的大量文本。這些文本包括政治理論,法律和調查研究,學者們可以從自動文本分析在他們的領域的應用中學到很多東西。政治學者當然可以用新的數據集檢驗長期存在的理論,但新的文本也意味著新的想法、概念和還沒有被發現的過程。

【文本分析】文本作為數據:政治文本自動分析方法的前景和陷阱



分享到:


相關文章: