梁晨 董浩 李中清|量化資料庫與歷史研究

梁晨 董浩 李中清|量化数据库与历史研究

口述歷史 研究專論/書評書介/學術信息

梁晨 董浩 李中清|量化数据库与历史研究

量化數據庫與歷史研究

文章來源:《歷史研究》2015年第2期,第113—128+192頁。

摘 要:歷史學在今日仍被視為傳統學科之一,但非歷史學者藉助大規模歷史量化數據庫進行自然和社會科學研究並取得重要成果的現象卻有不斷增長之勢。不同於傳統計量史學和以經濟學為代表的社會科學學科所注重的“解釋型學術”量化數據庫推動的是“求是型學術“,即通過統計分析從大規模系統數據中挖掘新事實、產生新認識。中國歷史中長期存在規模宏大的戶籍登記、土地分配和科考記錄等系統材料以及海量文字記錄,很多已得到收集和整理,有利於構建大規模數據庫並開展定量研究。這種新的研究範式不僅有助於歷史學科自身發展,更能夠促進跨學科、跨國界的學術交流與融合,併為全面深入認識中國社會歷史特徵、平衡東西方學術發展作出貢獻。

一、前言:量化數據庫研究的興起與研究範式調整

自然科學和人文社會科學學術傳統在16世紀開始的“科學革命" (Scientific Revolution)後出現 “大分流”:自然科學追求對“未知”事物的發現和認識,人文社會科學注重對“已知“現象的理解和解釋。根據美國教育學家歐內斯特· 博耶(Ernest L. Boyer)對學術類型的分類,前者更符合“求是型學術" (Scholarship of Discovery) ,後者偏重於“解釋型學術”(Scholarship of Integration [or Interpretation])。

然而,20世紀90年代以來一種將大批量歷史材料數據庫化,並依靠定量分析揭示其中隱含的史實、檢驗和發展歷史認識與經驗的新方法逐漸在國際學術界流行起來,很多成果與著作產生重大學術和社會影響。例如,美國家譜學會保存的歷史長時段人口資料對20世紀90年代遺傳學家和醫學家在乳腺癌基因遺傳方面的重大研究突破有很大推動作用。法國經濟學家托馬斯·皮凱蒂(Thomas Piketty)《二十一世紀資本論》(Capital in the Twenty-First Century)一書依據多國20世紀國民賬戶、收人、財產與納稅等多種系統歷史數據,研究資本主義社會不平等的長期演化。該書曾高居英文暢銷書排行榜首並引發熱烈的學術討論。美國經濟學協會主席克勞蒂亞·高丁(Claudia Goldin)與《經濟學季刊》(Quarterly Journal of Economics)主編、前美國勞工部首席經濟學家勞倫斯·凱茲(Lawrence Katz)合著的《教育與技術的競賽》(The Race between Education and Technology)基於近一個世紀以來美國教育、職業和收入的個人層面微觀數據討論美國經濟不平等的歷史脈絡和技術革新、教育進步對收入分配結構的影響。這些成就在推動全球學術進步的同時,也彰顯了大規模量化數據庫在結合歷史資料系統研究人類社會長 期變化與延續等大問題上的作用。由此可見,人文社會科學研究同樣可以貢獻“求是型學術”。

量化數據庫研究是統指各種搜尋能夠涵蓋一定地域範圍、具有一定時間跨度的整體性大規 模個人或其他微觀層面信息的系統(一手)資料,並將這些資料按照一定數據格式進行電子化,構建成適用於統計分析軟件的量化數據庫並進行定量研究的方法。量化數據庫研究多以“大數據“為基礎,關注材料的系統性和可量化數據平臺的構建,重視對長時段、大規模記錄中的各 種人口和社會行為進行統計描述及彼此間相互關聯的分析,以此揭示隱藏在“大人口" (Big Population) 中的歷史過程與規律。相較千傳統定量研究,這種“長時期”的具體信息,這不僅使學者可以依託數據庫理解個體是如何被宏觀社會環境所規範和影響的,也可以理解這些微觀、個體行為又如何集合起來塑造和改變宏觀社會進程,甚至以用來檢驗”中觀“社會群體,如家族、鄰里社區等在宏觀環境和微觀行為互動下的特點和作用。傳統定量研究則傾向於將研究問題和具體操作抽象化,倚重數理模型和邏輯推導,強調複雜統計方法的運用,但往往不夠重視實證材料或數據本身。因此,量化數據庫研究是一種更為基礎和寬泛的研究思路和方法,它既能夠豐富、完善我們對微觀人類歷史和行為的認識,還有助於構建更為可靠的宏大敘事,促進我們對人類社會發展規律的進一步認識。

20世紀90年代中期以後,利用歷史資料進行量化數據庫構建與研究逐漸成為國際學術界關 注的一股“熱潮”。以當前國際上最有影響的五大歷史量化數據庫為例,建成初期學界對它們的利用、研究很有限,但進入20世紀90年代,尤其是1995年以後,情況發生巨大轉變(參見下圖)。2006-2010年的五年間,索引五個數據庫5的新增學術發表成果已達2360餘篇。儘管這些學術成果中有很大一部分來自IPUMS所包含的當代人口統計數據,但如果只統計三個純歷史微觀數據庫,即BALSAC、HSN和SEDD, 其貢獻的新增學術成果在2006-2010年五年間也達到117篇, 且近20年的增速與五個數據庫發表成果數量增長趨勢兒乎一致。 需要注意的是,下圖中的右側縱座標已經過指數轉換,而非傳統線性座標,可見這些大規模量化數據庫對學術研究的貢獻是呈幾何級數增長的。

梁晨 董浩 李中清|量化数据库与历史研究

數據來源:Google Scholar搜索結果(截至2014年1月);美國國家教育統計中心《教育統計簡報2012》(Digestof Education Statistics2012)表310和364,http://nces.ed.gov/programs/digest/2012menu_tables.asp; 《中國教育年鑑》(1982-1984、1988、1992、1996及19982012年),北京:人民教育出版社(分別出版於1985、1989、1993、1997及1999--2003年。

值得注意的是,目前歷史學界似乎對量化數據庫這種科學化的方法在研究和學科建設上所 具有的重要價值缺乏認識。積極參與到這股“熱潮”中來,將歷史量化數據庫作為新的工具與 資料開展研究的更多是社會科學和自然科學學者。歷史量化數據庫日益凸顯的學術價值與歷史學者及整個學科在這一新興學術浪潮中遠非充分參與,形成一種對比強烈的“內冷外熱“現象。

一方面,重視構建大規模史料數據庫已經成為國內外史學界共識,國內一些學術單位與學 者也嘗試建立數個重要的大型電子史料庫,但史學家對數據庫建設的認知大多還停留在資料永久保存階段,以文獻和數據檢索為主要目的。數據庫的可量化研究以及由此帶來的方法轉變還未曾涉及,這也造成一些大規模歷史數據庫被構建卻無法得到很好利用的尷尬。量化數據庫是分析大規模史料的重要方法之一,能為歷史學者解決這種“尷尬”提供幫助。

另一方面,由於教學和研究方法與技術發展潮流脫節,傳統史學越來越難以吸引年輕人,已經是一個持續多年且國際化的狀況。以哈佛大學為例,50年來以人文學科為主業的學生比例已從近40%下降到20%,全美這一比例則從14%下降到7%。作為歷史學者的最直接來源,如圖所示,20世紀70年代以來,中美兩國應屆歷史學專業研究生比重呈現明顯下降趨勢,這間接反映了歷史課程與研究方法的“落伍”和不夠實用。

本文著重通過介紹國際學界歷史大數據庫構建與研究的狀況,分析探討這種新研究方法對 歷史研究的價值,歷史學者面臨的挑戰與諸多自身比較優勢,以及開展相關教學的必要性。

二、國際大型量化歷史數據庫的創建與運用

量化數據庫研究方法是近60年來計算技術發展的結果。第二次世界大戰後,計算機逐漸深入到人類生活的各個方面,海量電子原始數據(Raw Data)也逐漸在全球積累起來,人類正步 入“大數據“時代。這些數據是分析、研究人類多種行為的重要依據。但面對龐雜的信息數 據,不僅人眼(人腦)無能為力,甚至早期的統計分析工具也無法勝任,這促使統計分析技術向“數據挖掘”方向發展。利用“數據挖掘“,研究者可以對複雜的“大數據“進行定量分析, 從中有效挖掘隱藏的現象與規律,總結經驗模式。20世紀中期以後,計算機輔助下的定量分析逐漸成為國際學術研究中的一股新風潮,許多大型量化數據庫得以構建並服務於學界。1962年,以美國密歇根大學為基地成立的跨大學政治和社會校際聯合數據庫(Inter-university Consortium for Political and Social Research, 簡稱ICPSR),聯合全世界600多個成員機構,存儲超過17000多種調查資料,包括全球各地各種社會調查,其中美國自身資料包括各州選舉投票資料、軍隊名冊、遺囑、遺囑查驗與稅收記錄和美國聯邦調查局案卷資料等,是目前世界上最大的社會科學數據中心之一,對經濟學、政治學、社會學、人口學以及法學等學科研究具有重要價值。1968年,德意志聯邦共和國成立了德國社會科學信息中心,負責收集各種社會科學信息並建設成專業數據庫,供學術界以及公眾使用。目前,該機構的數據庫涉及社會學、心理學、人口學、政治學、歷史學和經濟學等多個領域,是歐洲最重要的數據庫之一。

定量研究的風氣也滲透進歷史研究。20世紀60年代起計量史學在歐美學界曾盛行一時。20世紀80年代中期起,英、美兩國先後成立國際性歷史與計算學會。一些國際學者開始嘗試建設小型個人歷史專題數據庫。到20世紀90年代,一些重要的大型、超大型量化史學數據庫構建成功並對學界開放使用,引起國際學界極大關注。美國明尼蘇達大學人口中心創建的整合公共微觀數據庫是其中最有影響者之一。微觀數據(Microdata)指社會抽樣調查和人口普查等包含的個人層面(Individual-level)信息,如性別、年齡、婚姻、家庭狀況、職業和出身等。微觀數據在世界各國廣泛存在,內容和形式高度一致,適合連綴成超大數據庫,進行國際比較, 是新社會史和經濟史研究的關鍵。 歷史學家是除統計機構外較早使用微觀數據進行研究的學者。1998年起,IPUMS首席科學家羅伯特· 麥凱(Robert McCaa)先後說服100多個國家的統計機構與IPUMS合作,將各自數據庫連接起來並免費用於學術研究。 目前,IPUMS包含19世紀以來多個國家(包括中國第三次[1982]、 第四次[1990]人口普查)的微觀數據。現在,IPUMS數據還在不斷增長,其中最顯著的是從18世紀開始到20世紀中期,以數字抄本為基礎的歷史人口微觀數據。到2018年,IPUMS數據記錄總量將擴展到20億人次。

IPUMS等基於人口普查的微觀數據庫儘管具有地理、 人口覆蓋面廣的優勢,但這類數據往往只能反映一個或幾個時點的橫截面(Cross-Sectional)微觀數據,無法對個人進行跨時點的連續追蹤。與之相對的是基於歷史戶籍、族譜、教會記錄等長時段連續記錄構建的長時段縱貫(Longitudinal)數據。雖然這些數據庫往往只能覆蓋一些地區,但可以連續觀察這些地區居住人口幾十甚至幾百年的行為活動,成為研究歷史社會發展與個人行為互動的重要材料。目前全球有多個公開或半公開的大型歷史微觀數據庫,除上圖涉及5個數據庫外,還有加拿大歷史人口計劃數據庫(Le Programme de Recherche en Demographie Historique, 簡稱PRDH)、 瑞典烏米亞人口數據庫(Umea Demographic Database, 簡稱DDB)等。它們普遍涵蓋一個或幾個地區個人層面的大規模人口信息,除人口事件外,往往還包含一定的個人或家庭層面的社會經濟信息。

由於這類西方長時段微觀歷史數據庫的材料來源和結構具有一定的相似性,本文著重介紹四個納入上圖計算的數據庫。 BALSAC涵蓋自17世紀以來第一代歐洲定居者至當代的加拿大魁北克地區約500萬人口,通過對該地區以婚姻證書為主的人口事件記錄進行電子化轉換,並對個人記錄進行人際、代際連接,重建親屬網絡和譜系。HSN是一個對荷蘭全國人口具有統計意義的代表性人口樣本數據庫。研究者通過對全國人口出生記錄進行隨機抽樣,將1812至1922 年間在荷蘭出生的78000人納入其中,並嘗試查找和連接相關個人婚姻證書和死亡證書。另外,除了這些“分散”的人口事件記錄之外,近年來荷蘭研究者還嘗試錄入人口戶籍資料信息,以期較“連續“地觀察每個人的生命歷程。SED資料來源相較BALSAC和HSN更為複雜。數據庫不但包含9個教區的人口出生、婚姻和死亡證書用於構建個人層面的人口事件和家庭關係,還與相應教區的“人頭稅”冊以及教會問答測試記錄連接, 記錄較為詳細的動態家庭構成和社會經濟信息。其公開數據記錄了1829年至1968年間5個教區共108000人,非公開部分連續記錄至2011年。UPDB數據來源是這幾個數據中最為豐富的,包含的信息也最為全面。與其他人口數據庫類似,生育、婚姻、死亡等人口事件證書和由摩門教會記錄的家族譜系資料是UPDB的基礎。研究者將數據庫與美國人口普查數據、猶他州選民登記資料、猶他州駕照信息、醫院出診和手術記錄、癌症登記資料、離婚登記、社會保險死亡登記等多種資料連接,形成一個包含11代730萬人共1900萬條記錄的大型微觀數據庫。這些數據庫不僅有助於學者深入理解大規模人口歷史,亦可為更廣義的社會科學以及遺傳學、醫學和其他自然科學研究作出巨大貢獻,為開發珍貴歷史資料的巨大潛能創造條件。

最近十幾年裡,一些側重東亞研究的歷史學者和研究團體意識到,西方學術界構建量化歷史數據庫使用的相關人口、社區原始材料,在中國或東亞地區很早便廣泛存在。一些東亞地區的歷史人口微觀數據庫由此陸續得以建立。如美國學者李中清(James Z. Lee)、康文林 (Cameron Campbell)從20世紀80年代起,花費20多年時間,建立基於八旗戶口冊和清代皇室族譜資料的中國多代人口系列數據庫(China Multi-Generational Panel Data Series, 簡稱 CMGPD)。該系列數據庫包含遼寧、雙城和皇族三個子數據庫,其中前兩個已經在ICPSR網站上對全球學界免費公開。遼寧數據庫涵蓋1749-1909年間遼東地區26萬人的150餘萬條記錄。雙城數據庫涵蓋1866-1913年間黑龍江雙城縣10萬人的130餘萬條記錄,並嘗試與不同時段的家戶地畝資料相連接。 這些大規模、 長時段的微觀歷史數據包含豐富的人口和社會經濟信息,具有時間上的深度和空間上的廣度,對人口統計學、家與家族、親屬關係、 社會分層與流動、衛生健康等多個學術研究領域有重要價值。東亞其他國家和地區也存在大量類似的戶口冊資料,如日本的戶口冊、韓國的戶籍大帳、臺灣日據時期戶籍資料等。目前這些相應數據庫都在各國研究者的努力以及國際學界的合作下不斷完善,對整個東亞歷史人口和社會變遷的研究產生積極影響,更為與西方社會進行長時段和微觀層面的比較研究提供更多便利。

大規模歷史微觀數據庫不僅成為歷史研究的重要基礎,也越來越為其他相關學科學者所看重,成為學術研究的重要推動力。利用Google Scholar的搜索功能,統計五大國際微觀量化數據庫和中國多代人口數據庫一遼寧部分在不同學科領域內研究使用情況,可以看出,所有數據庫在社會學、經濟學、人口學、政治學、生物學和健康學等非歷史學領域都有普遍運用。

梁晨 董浩 李中清|量化数据库与历史研究

總的來說,大規模量化歷史數據庫的建立為整個學界提供了更為豐富、靈活而有效的研究資源。IPUMS的專家們宣稱,對於他們的數據庫,研究者只需要一個穩定的網絡鏈接和一臺個 人電腦就可以在任意地點展開研究。對於歷史學家來說,構建大規模歷史數據庫並採用定量研究方法,必然促使他們從傳統的文獻解釋研究模式向信息數據收集、數據挖掘、數據庫建設和記錄分析與寫作模式轉變。這種研究方式的大轉變意義重大。

三、 量化歷史數據庫的學術價值

量化歷史數據庫是計算技術和結構數據的組合,這種源於方法的更新帶來史學研究形式的 改進。巴勒克拉夫認為20世紀後半葉以來,歷史學向其他社會科學尋求新方法,突破舊史觀和研究框架已成必然。這使得社會科學在兩個層面上促進了歷史學的新發展:一是應用更加廣泛的社會科學思維範疇;二是新的定量方法的運用。這些影響最終推動了歷史研究重心的大轉移,從特殊轉向一般,從個別事件轉向普遍過程,從敘事研究模式轉向結構分析模式。數據庫研究模式及其在歷史學中的應用,在有效擴展研究史料範圍和轉變研究驅動模式的同時,幫助歷史學家從更普遍、更基層的角度發現隱藏的史實與規律,開展更具普遍意義的國際比較,實現史學研究的突破與轉變。

(一) 擴大史料範圍和史學研究基礎

量化數據庫方法對分析大規模的系統性、連續性歷史材料非常有效,在擴展幾乎所有史學 研究門類材料範圍的同時,為克服史料繁蕪提供重要思路,可使史學家們從傳統的”選精”與 “集粹”研究方法中超脫出來,對“大人口”、“長時段”的整體史學研究頗有幫助。大規模、同類型的群體性記錄廣泛存在於歷史材料中,但過去往往被歷史學家忽略或無法運用。歷史因果關係是“多種事物互為因果的複雜關係“,普通邏輯思維本就“難濟事", 個人層面的微觀材料又繁蕪龐雜,如果沒有科學的研究方法幾乎無法開展系統性整體研究,史料的學術價值無法被開發。就國際史學來說,警察記錄、稅收記錄、人口調查資料、遺囑、市政委員會的訴訟、教堂登記、新聞報紙、選舉統計和人口史領域內的家族譜與人口登記材料等均是在量化歷史數據庫建立後,首次為學者系統利用,對研究選舉與政治史、商業週期史以及歷史人口學和家族等重大問題起到重要作用。近些年筆者一直從事的中國大學生學籍卡數據庫構建及研究亦如此。學籍卡是近現代教育史上常見材料 但在建立量化數據庫之前,一直不能為中國史學界深入利用,通常只為佐證某位名人的求學經歷等。學籍卡數據庫的建立,為分析整個大學生群體的社 會來源與社會流動等學術問題提供了可能。

中國歷史文獻中類似材料非常豐富,量化數據庫的構建與研究可以有效發揮它們的學術價值。筆者認為傳統官方文獻中至少有三類非常適合數據庫化和定量研究。第一,歷代戶籍材料。中國約自戰國時期巳有戶籍制度,秦統一後逐漸形成規模,經三國及南北朝時期的調整,隋唐後巳經非常完備。這個過程中,戶籍登記材料得以累積並逐漸完善。明代以來的黃冊更是蔚為壯觀。這些連續長達兩千多年的戶口材料是數據庫與量化研究的絕好素材。 第二,與戶籍材料相伴隨同樣歷史悠久的土地及財產佔有與分配登記材料。西周以來,中國土地賦役制度經歷井田制、屯田制、均田制、府兵制、均稅法、一條鞭法、攤丁入畝到現代土地改革多次調整,但每個新制度下,對土地數量丈量、歸屬權益的明確以及相關賦稅情況都有龐大記錄,這些重要材料非常適合數據庫化研究。第三,自隋唐以來,考試(考核)就成為中國社會選拔精英人才的重要方式,歷代皆有數量驚人的科考或官員銓選材料,這些材料歷時長,系統化程度高,是不可多得的量化數據庫素材。李中清一康文林研究組目前正在收集此類教育與官員考核史料,以構建兩個新的全國性量化歷史數據庫。一個是由李中清、梁晨負責的民國大學生學籍信息數 據庫。目前已收集、輸入近10萬民國大學生的學籍信息,對民國大學生社會來源問題研究很有幫助。另一個是康文林負責的清代《縉紳錄》資料的數據庫化和量化分析。目前已確定《縉紳錄》涉及50萬官員超過260萬條個人記錄,對系統分析清代官員人際網絡和職位波動意義重大。以上三方面材料及相關研究問題是中國歷史研究的重點與熱點。以這些材料來構建大型量化歷史數據庫,對重大歷史選題研究的突破和為教師提供教學素材等都非常有利。此外,民間材料如家族譜、商業機構賬冊等都是適千構建量化數據庫的重要資料。

大數據庫通常涵蓋某一範圍內所有參與者或構成者的狀況,量化方法又能系統、細緻地研 究或描述不同規模群體的多種信息。一些多變量分析方法還能同時比較多個因素與結果的相互關係,或者在考慮到結果與其他因素相互關聯的情況下,估計特定因素與結果的統計相關性。這不僅能幫助研究者更深入理解各種因素的變化與彼此關係,還能兼顧所有個體的影響與權重,很大程度上避免選擇資料時的疏漏與偏廢,可彌補史學家慣用的“選精”與“集粹”研究方法之缺陷。李伯重認為,“選精”與“集粹”研究方法,前者是“從有關材料中選取一兩種據信是最重要或最有‘代表性’的,以此為據來概括全面”;後者是在研究”一個較長時期或一個較大地區中的重大歷史現象時,將與此有關的各種史料儘量搜尋出來加以取捨,從中挑選出若干最 重要或最有代表性的,集中到一起,合成一個全面性證據,以求勾畫歷史現象的全貌"。他認為這兩種方法是史學家慣常使用的,但在本質上並無大異,其特點都是通過從史料中選取具有代表性的例證推導出結論。研究者常將“某一或某些例證所反映的現象普遍化”,從而可能喪失真實性,導致研究結果具有一定不可靠性,需要加以改進。量化數據庫研究在處理海量材料上的能力,在一定程度上可以解決史學研究中“史料不可能竭澤而漁,甚至難以把握邊際"的困難,避免”或分門別類,縮短戰線;或隨意比附,看朱成碧"的研究困境。

(二) 善於發現隱藏史實,改進研究驅動模式

量化研究的一個重要優勢是,能夠發現靠傳統文獻閱讀無法發現的隱藏在歷史資料堆中的 史實。與傳統計量史學強調高級統計方法和側重因果推論不同,大規模微觀量化數據庫最根本的優勢在於,可以幫助研究者通過簡單的統計分析,得出基礎的描述性統計結果、發現不同因素間基本的相互關係。當然,通過巧妙的研究設計和邏輯推導,研究者同樣可以基於這些“大數據“得出因果推論。同時,這種基於量化數據庫的基礎性統計描述有很大兼容性,對系統的、可歸類的文字信息也有很好的分析能力,這使得它為幫助史學家發現傳統文獻閱讀無法察覺到的歷史因素的相關性,對話已有的學術理論和觀點以及進行更為複雜的研究分析提供了基礎。

以大規模數據為基礎的量化研究還能較好糾正研究的主觀性,實現研究從常見的理論或問題驅動轉向數據或經驗驅動,在發現真實歷史的同時修正過去的訛誤。我們強調的構建量化數據庫應是一個整理、開發歷史材料的客觀過程。設計合理的量化數據庫,應首先完整體現史料所記錄的原始信息而非研究者對數據的主觀判斷和改動,將主觀處理和理解數據庫的操作空間留給數據庫使用者,並在設計上為數據庫使用者依據當前數據生成需要的新變量提供可能。不同於以存檔和檢索為目的的文史資料數據庫,構建量化數據庫的初衷在於方便研究者直接對數據進行量化分析。量化數據庫所包含的信息既可以直接來自史料中的數字記錄,如人口、稅賦、田畝等,也可以對文本資料如傳記、名錄等進行系統編碼。量化數據庫的形式往往是一個或多個數據表格。雖然具體數據結構可能因材料類型、內容及其他特點而不同,但絕大部分數據表格的設計都是每列包含一個因素或類別(即變量)的信息,每行代表一個最低層次的研究個體,例如某人、戶等。對這些數據庫的量化分析,實際上就是通過統計軟件對大規模研究個體(行)在不同因素(列)之間相互關係的統計分析。這種量化分析本身並不依賴任何單個或正反方事件參與者的敘述,相對簡單、明確的數量關係也可以避免表達上的主觀與刻意,可以更好避免研究者基於自身認知或經驗所形成的預設觀點對研究結論的影響,減少研究時的“先入為主"'並方便重複驗證,得出的規律性現象或結論也更可靠。 因此,只有保證數據庫最大程度地反映歷史材料的原有信息,才可能保證分析結果的客觀性和完整性。

構建量化數據庫尤其是大規模微觀量化數據庫能夠更好地推動歷史研究,其原因主要在於, 相比傳統史學的”選精”、“集粹”或是新經濟史研究中常見的集合數據(Aggregate Data),量化數據庫能夠提供更加全面、系統和微觀的信息。在獲取歷史事實方面,僅僅依靠對各變量最 簡單的描述性統計,如頻數、平均值、標準差、比例、列連表等,量化數據庫就可以提供許多集合數據或個案研究無法提供的信息和視角。這一點在結合歷史數據往往覆蓋長時段的特性時作用尤為明顯。更重要的是,這些簡單的統計描述僅反映數據庫的客觀情況,不同的數據庫使用者可以如自然科學研究一樣重複檢驗。目前許多定量歷史研究在解釋歷史現象方面依靠自然實驗(Natural Experiment)的設定,借鑑現代計量經濟學如工具變量(Instrumental Variable)、雙重差分法(Difference in Difference)、斷點回歸(Regression Discontinuity)、傾向 值匹配(Propensity Score Matching)等前沿技術進行因果推斷。這些統計方法的運用往往需要對變量之間的關係和分佈引入許多較強的假設。儘管很多假設並非直接針對數據的侷限性,但是有限的數據往往限制了研究者對假設合理性的檢驗,從而增加了研究結論受研究者選擇方法的主觀性影響的風險。而大規模量化數據庫的構建,無疑可以提供更多微觀、有效的信息,提高統計功效,為大規模歷史數據與複雜統計模型分析的結合提供條件。

(三) 為國際比較和多學科合作創造精準的數據基礎

國際比較和多學科合作研究是很多大規模歷史研究項目追求的重要目標之一,但很多歷史 現象本身蘊涵複雜的信息,直接進行跨國、跨文化比較研究困難重重。李伯重指出,比較是學(特別是現代史學)的基礎,但在進行比較研究時需認真考慮研究對象是否具有可比較性,有無一致的時空範圍以及是否具備合適的比較標準,而數據的優點使得量化比較成為比較史學中最成功的部分。量化數據庫則致力於從文獻史料中系統抽取相對明確的信息,如傳記履歷或人口調查材料中的生卒年份、職業身份、財富收入等,通過編碼處理供計算機分析。這些信息基本都有普遍通用的含義,適合進行跨地區、跨國界比較。加之定量方法的客觀性與可比性,這削弱了材料與結論的意識形態和國別屬性,可以保證國際比較的事實基礎可靠,比較的結果相對準確,容易形成共識。由多國社會科學家組織開展的歐亞人口和家庭史項目(Eurasian Population and Family History Project, 簡稱EAP),可視為近些年來利用大規模微觀數據研究進行國際比較的範例。1994年以來,來自歐洲、美國、日本和中國等國家的人口史學家、社會學家和經濟學家等,將比利時、中國、意大利、瑞典和日本等國100個村莊的個人層面微觀數據分別建成量化數據庫,通過構建標準統一、便於比較的統計模型,分析死亡、出生、婚姻等多種人口行為與社會環境的互動。該系列研究成果集中關注中西方社會人類行為的空間差異及其與人類意志的關係,挑戰了現有傳統研究下的某些經典宏大理論, 對人口學、歷史學及社會學等學科發展具有重要意義。

量化歷史數據庫的構建還能為社會科學家提供強大且靈活的研究資源,推動歷史學與其他 社會科學的優勢整合。傳統史學研究,一般通過文獻資料收集和學者個人化解讀,梳理出歷史史實。這些史實通常可以成為其他學科的認識基礎與判斷依據, 但由於研究方式不一致,大部分描述性的歷史材料或結論,較難直接應用於其他學科相對系統和量化的研究方法,進而阻礙歷史學與其他學科的融合。通過對史料整合,構建量化數據庫,歷史材料轉變成可直接適用千定量分析研究的數據,成為歷史學和其他學科均可直接分析利用的一手材料,而不是難以“消化”的描述性史實,為實現歷史學科研究方法的多樣化,以及與其他社會科學甚至自然科學的交流互動提供基礎,提升歷史學的學術價值。

此外,量化歷史數據庫大多向學界開放,這意味著會有更多不同學科的研究者和研究方法投人歷史材料的解讀和分析中,豐富歷史研究的形式和成果,形成與傳統歷史學家“單打獨鬥 ” 不同的局面。 如中國多代人口數據庫—遼寧部分,早期主要由研究組成員及其合作者使用,但隨著數據材料於2010年對學界在線開放,已有越來越多數據計劃成員(李中清一康文林研究組)以外的學者開始使用這些數據進行研究,果數量甚至超過了李中清一康文林研究組本身。這只是各大公開量化數據庫對學界貢獻的一個縮影。量化數據庫的構建與公開,對學術發展的貢獻顯然已超出單個學者或研究組的能力範圍。

四、 量化數據庫運用中的挑戰與機遇

構建數據庫和量化分析的研究方法是史學研究“現代化” 、“科學化”的一個重要途徑,但現代方法與古老學科的結合可能存在很多困境與挑戰。巴勒克拉夫認為,歷史學者往往有一種“心理障礙“,對新研究方法不容易接受。還有學者認為,相較於其他學科,計算機技術在歷史研究中的應用狀況並不好,這不是因為計算機技術不夠發達,而是歷史學家沒有學會使用新技術,甚至對新方法抱有很強的偏見和反感。因此,即便定量分析明顯為“描寫大人口群的歷史提供了巨大機會”,但“很多從事流行文化與社會研究的歷史學家對這一方法卻非常消極”這些論斷未必完全正確,但歷史學家運用社會科學化的研究方法確實存在很多挑戰。

在中國,這種挑戰似乎更嚴峻。歐美不少大學早巳設立專門機構,研究計算機技術在人文學中的應用,並依託其來培訓學生,打造未來學者。英國普利茅斯大學以第二次世界大戰後的 英國選舉數據為例,訓練歷史專業的學生掌握基礎數據分析方法;牛津大學在很多人文領域進行計算機研究和拓展,包括人文計算中心、牛津文獻檔案館、人文中心等;格拉斯哥大學有人文高級技術與信息中心,鼓勵使用信息技術開展人文研究和教學。美國幾十所大學設有專門機構研究量化史學方法。普林斯頓大學、羅格斯大學以及弗吉尼亞大學設立人文電子文獻中心。加拿大多倫多大學等也有類似機構。國內在此方面卻幾乎還是一片空白。錢學森先生30年前就呼籲中國史學界要加強對學生的計算機技術教育,開設系統科學、電子計算機和高等數學等課程,培養定量研究專門人才,以能運用系統的科學方法進行歷史研究。但這一倡議並未引起重視。而自中學就實行的文理分科和歷史等傳統文科對科學方法教育、應用的漠視使未來史學家在掌握新方法上遇到更多困難。最近幾年,一些外國學者開始嘗試以暑期班的形式在國內大學開設量化史學課程,如2011年起,康文林、李中清在上海交通大學開設“中國多代人口數據庫暑期學校”,陳志武於2013年起在清華大學組織“量化歷史研究班”他們希望將大數據量化分析方法教授給國內史學新秀。但在授課過程中,主講教師意識到國內年輕史學工作者對史料有較深的理解和掌握,但對基本統計學理論與方法則比較陌生,使得教學效果大打折扣。

當下的多數歷史學者,不僅在掌握量化數據研究技術與方法上存在很大困難,接受與適應 這種社會科學化的研究組織與管理模式也不容易。構建量化數據庫通常包括數據採集、數據分類、數據編碼、數據存儲、數據信息挖掘和定量分析等多個環節,數據庫建成後還可能需要數據管理和維護等多種工作。相對於以數據為中心的“科學化”、“電子化”研究方式,傳統史學 研究顯得有些手工藝式的陳舊。史學者從事研究時多是“單打獨鬥“,而構建大規模、量化史學數據庫並對其進行分析與研究,通常需要構建起一個研究團隊,由多學科專業人員合作參與。這種社會科學化的研究,無論對經費還是組織管理都有相當要求。另外,量化歷史數據庫要發揮更大學術價值,開放是非常關鍵的。李中清—康文林研究組的中國多代人口數據庫、包弼德領導下的哈佛大學中國歷史人物傳記數據庫(China Biographical Database Project, 簡稱 CBDB)44以及耶魯大學自1949年開始建立的人類關係地域文件庫(Human Relations Area Files, 簡稱HRAF)等都實現了在線公開,方便全球學者利用,這與過往那種將珍貴史料“敝帚自珍”的做法也完全不同。

不過,面對“大數據“時代量化研究的大趨勢,歷史學者絕非“赤手空拳“,只能消極被動接受轉變,而是有其獨到的比較優勢。歷史學者掌握的眾多史料、豐富的歷史知識以及考據等 研究方法等對量化研究歷史資料來說都是必須的。量化數據庫方法要在歷史乃至社會科學研究 領域發揮更大價值,歷史學者的作用不可或缺。實際上,儘管使用數據進行分析的多為非歷史學者,但前文介紹的社會科學最重要的公開數據整合中心之一ICPSR和幾個重要量化歷史數據庫IPUMS、 HSN、SEDD、 CMGPD的項目發起人或領導者都獲得歷史學博士學位。這說明歷史學者不僅能夠參與,而且對於這些國際主要量化數據庫項目的成功有不可替代的作用。

歷史學者在研究中認識和處理史料的寶貴經驗,是構建量化數據庫和進行後續分析不可或 缺的。量化數據庫的構建與研究,必須依託於統一的制度性定義或標準化結構的信息材料才能完成,但歷史材料的豐富性、多樣性和複雜性成為構建系統、直觀的量化數據庫的障礙。 如郭松義曾分別研究清代在京山西商人和司法審判中私通行為,前者有136宗樣本,後者有403宗案例,從社會科學角度來看體量並不大,但這些個案分散在“乾隆朝刑科體本”、“宗人府來文”、“內務府來文”、“八旗都統衙門檔案”、"刑法部檔案”以及《刑案匯覽》、《刑案匯覽續編》等眾多官方文獻以及如《資政新書》、《樊山政書》等海量個人文獻中。對缺乏史學訓練和長期研究積累的非歷史學者來說,瞭解這些史料並找到所需研究個案是非常困難的。又如,前文提到的SEDD數據庫,整合了出生、婚姻死亡三類登記冊以及稅冊和教會考試冊等多種材料。如果沒有對各種歷史材料的深入理解,很可能會在整合不同資料構建量化數據庫的過程中產生種種問題。構建量化數據庫並非單純將歷史材料 “電子化”,而是需要憑藉歷史學者對原始材料的深刻理解,創造性地進行歸類和整合。

在選定和整理好原始史料後,對史料中包含的具體信息的分類與編碼依然需要依賴歷史學 者的專業知識。由於時代背景錯綜複雜、史料建立和涵蓋的時間長短不一,史料記錄的內容可能不一致或不完整,且難以今日的常識直接理解。此外,單一歷史材料也可能包含多種類型和層次的信息,比如人口戶籍材料不僅包含個人信息,也可能包含家戶成員關係和土地、 財產構成等信息,往往需要細緻、全面地理解和辨別。因此,將史料記載的複雜信息靈活妥當地分類並設計變量編碼方式並非簡單依靠電腦技術或其他模版即可完成。這種史料的複雜性一直是歷史研究的難點,同時也是歷史學者學習、訓練和研究的重點。歷史學者對史料文獻中各種信息的真偽與具體含義的把握優於一般的非歷史學者。 歷史學者在長期訓練、 研究中積累起來的專業歷史知識是構建、研究量化歷史數據庫工作必不可少,甚至是至關重要的保證。

歷史學家對當時社會、人文環境的認識比較全面和深入,在對各種歷史文本信息的解讀和 對分析結果詮釋方面,往往也擁有比較優勢。隨著數據挖掘和信息處理技術的發展,尤其是文本挖掘(Text Mining)技術的進步,使得分析人物傳記 、文學手稿等結構較為複雜的文本材料成為可能。例如哈佛大學學者讓-貝普提斯特· 米歇爾(Jean-Baptiste Michel)和耶瑞茲· 列博曼· 艾登(Erez Lieberman Aiden)領導的研究組於2011年在美國《科學》(Science) 雜誌上發表《基於百萬電子化圖書對文化的定量分析》(Quantitative Analysis of Culture Using Millions of Digitized Books), 通過“谷歌圖書計劃" (Google Books Project) 得以構建涵蓋4%的電子文字數據庫,並量化分析1800—2000年間英文語言應用所反映的文化趨勢。通過詞典編纂、語法進化、集體記憶、技術傳播、名譽獲得、文字審查、歷史傳染病學等方面的分 析實例,他們很好地展示瞭如何通過構建大規模量化數據和應用簡單統計方法(僅僅是對特定詞語的出現頻次統計認識歷史和發現新知。

歷史學家對具體史實的細緻把握,往往能夠彌補大規模定量分析注重整體推論但部分忽視或無法理解具體演變過程和機制的弊端。量化歷史數據庫的應用並非鼓勵純粹定量分析,而是 需要傳統史學方法與定量方法的互補。在量化數據庫的分析過程中,社會科學化的定量分析優勢在於對多變量相對作用的分析,以及對整體統計或因果關係的概括,然而對具體作用機制和社會、經濟、制度環境的認識往往較為表面。而傳統研究擅長結合豐富的相關史料,深入理解一些典型個案,這無疑對研究設計和具體分析助益良多。

更為重要的是,研究者需要有對特定歷史背景的準確把握,才能選擇合適的定量分析方法 並正確解讀分析結果。進行以量化數據庫為基礎的研究分析,研究者需要思考的首要問題是選取構建數據庫的史料是否存在選擇性偏誤,即這些材料能夠在多大程度上反映當時的社會現實,能夠反映哪些特定人群、特定條件下的具體情況?只有對數據來源的選擇性有充分認識,才可能避免錯誤解釋分析結果或過分誇大結論的代表性。而這些必要的歷史背景往往是通過傳統文本分析獲得的。因此,史學研究方法一方面可以深化對定量分析結果的理解和解釋,另一方面也可以對定量分析結果和定性研究結果進行經驗比較,通過多種研究方法的結合減少主觀性風險的影響,提高對研究對象全面、深入的整體認識。“數量分析本身不是目的,只是認識的手段”。這些定性分析,對於以複雜的人類行為為研究主題的社會科學必不可少。 對新一代歷史學者來說,要將科學方法融入到傳統研究中去既不能因循守舊, 也不可以盲目推崇新方法完 全替代舊方法。

五、無限可能:量化數據庫與“求是型學術”在中國

對史學研究來說,構建量化數據庫是兼及史料整理和問題研究的重要工具,代表歷史學未 來發展的一個新方向。其尊重材料、注重探求事實本源的方法導向,與歷史學的學術傳統契合。然而,中國歷史學者的研究和教學在此方面仍停滯不前。一方面,大量掌握在歷史學者手中的重要人類經驗數據資料可能難以被利用,歷史學的學科功用受到限制;另一方面, 歷史專業的學生對新研究方法缺乏足夠了解和學習,在數字時代的競爭力自然受到影響。如何縮小差距、轉變思路,在發揮自身優勢的同時實施教育改革,仍是歷史學科建設亟須思考和解決的問題。

目前,歷史學者從事量化數據庫構建和研究的門檻巳大大降低。 近年來 一些暑期集訓課程在推動中國量化歷史分析教育方面取得很多進展,豐富的社會科學定量方法暑期培訓項目為 學生和教師短期內提升分析方法的修養提供可能。許多大學經管專業開設的發展經濟學和經濟史課程,也大量涉及量化歷史研究的各種經典實例,為歷史專業學生和學者深入學習相關理論與分析應用提供可能。而且,Excel等大眾化數據管理軟件的普及與發展,對千數據庫構建、數據管理和基本分析提供便利。SPSS、SAS、STATA、R等專業統計軟件在操作指令和交互界面方面也日趨人性化。

同時,社會科學的發展,為史學家和社會科學家的交流合作提供可能。跨學科合作交流或團隊的建立,可以幫助歷史學家突破技術壁壘。歷史學家自身不可比擬的比較優勢,更能夠幫助他們有效融入新的研究潮流中,對正確構建和分析歷史量化數據庫意義重大。中國史學界長期積累和正在進行的許多文獻收集和整理項目,都具有構建大規模量化數據庫的先天優勢,預示著未來短期內大規模歷史量化數據庫及相關研究在中國蓬勃發展的廣闊前景。國內很多學術單位和圖書檔案管理單位都已經開始重視大規模、 系統化歷史材料的收集與整理,建立了一些文獻保存或文獻索引型數據庫。如國家與地方檔案館的文獻材料數碼化工程 和國家清史工程對清代文獻的收集和整理;中國社會科學院近代史研究所對所藏約19萬件珍貴檔案的整理和電子掃描。各地高校歷史研究機構則致力於大規模收集地方社會歷史材料,部分也已進行電子化處理。如山西大學中國社會史研究中心收集、整理逾千萬卷山西地方社會歷史檔案;中山大學歷史人類學研究中心收集以閩粵為中心的地方家族譜和民間契約文書等;上海交通大學歷史系開展以上海郊區、蘇南、浙北地區為中心兼及中西部地區的“縣級檔案與契約 文書的收集、 整理與研究項目已彙集8省50縣約600萬頁檔案和30多萬件民間契約;浙江大學地方文書與編纂中心則與浙江龍泉市檔案館合作,將該館所藏晚清至民國時期總計17333 卷宗,88萬餘頁的地方司法檔案進行整理、電子化並出版。這些大規模史料收集與文獻數據庫的構建對材料的永久保存意義重大,大量分散在各地、各機構的重要史料得到了整合,一些數 庫還支持檢索功能。

雖然這類文獻檢索類數據庫的保存格式和數據結構仍無法直接用千定量分析研究,但已經 為構建量化數據庫奠定堅實的材料基礎,從而較快實現向量化數據庫的轉變,進而促進系統、 深入地利用這些歷史材料進行分析研究。可以預見,未來短期內我國曆史學在上述材料相關研究領域將會有長足發展,不僅在國家與社會、民間契約、宗族行為與司法訴訟等社會歷史研究方向取得重大進展,更會為相關社會科學和國際比較研究提供全新動力。

整合歷史數據與當代數據的思路, 無疑為進一步通過大規模量化數據庫促進跨學科、跨時段、跨地域全面認識人類社會與自我,提供了無限可能。而在實際操作層面,各種數據公開、 數據管理、數據安全和數據分析方面的具體問題也不容忽視。前文討論的ICPSR中心以及IPUMS和UPDB等數據項目就是成功範例。它們不僅為許多學科學術研究提供整合歷史與當代數據的新資源,更在實踐中總結出大規模量化數據庫管理方面的寶貴經驗,涉及明確原始數據所有權、簽署用戶保密協議、隱去數據內個人隱私信息、限制用戶接觸和分析數據的方法與層級等方面的許多具體實踐。

另外,盧森堡收入研究跨國數據中心(LIS Cross-National Data Center) 除能如IPUMS等數據項目提供在線生成統計表的簡單分析功能以外,還支持數據使用者自己編寫統計軟件代碼,以遠程分析保存在中心主服務器上的數據方式替代使用者自行下載、保存和分析數據的傳統數據分享方式,從根本上提高了對公開數據的安全和個人隱私的保障。這些都為今後我們在構建、管理、公開和使用大規模量化數據庫時,如何結合互聯網技術最大限度公開數據、方便研究分析但又保證數據安全和個人隱私等敏感信息安全方面,提供重要的參考模板。我們認為,提倡依託於大規模量化數據庫的學術研究,對推動整個人文社會科學的“求是型學術”、真正認識中國社會和歷史發展的特徵、平衡東西方學術見解意義重大。人文社會科學注重 “解釋型學術”的傳統, 得各學科在資料收集方面往往不斷確認”已知”而輕視探索未知。歷史學科的“選精”、“集粹”如此,當前社會學科中較為普遍和“科學”的統計抽樣調查等方式亦是如此。儘管在數據收集的功效和人口層面的代表性等技術層面,統計抽樣社會調查有其得天獨厚的優勢,但由於西方理論範式先行,我們在中國實施抽樣調查項目往往仍需要大董藉助西方已有研究經驗,通過研究直覺提出問題和設計問卷時,難免會受到西方”已知”事實和理論的影響。誠然許多重要研究成果確認或修正了東西方“共性”的認識,但我們也在一定程度上喪失了認識中國“未知”特質、完善和平衡國際學界對不同社會差異根本認識的可能。不論是歷史還是當代,基於檔案等人口層面系統記錄的大規模最化數據庫,無疑成為彌補當前這一研究缺憾的最佳選擇。這種以注重材料、探求事實為先的“求是型學術”,必定會促進我國曆史學科乃至整個人文社會科學平衡、健康、全面地發展,也會為國際學術進步提供豐富的“中國經驗”。

(作者梁晨,南京大學中華民國史研究中心副教授。 南京 210093; 董浩, 香港科技大學 人文與社會科學學院社會科學部博士研究生;李中清, 香港科技大學人文與社會科學學院講座教授)

註釋和參考文獻請參照原文

口述歷史

ID:wzuoralhistory

長按關注


分享到:


相關文章: