「乾貨」五分鐘學習使用語料庫分析工具

這一章中我將進一步和你分享如何使用語料庫分析工具。上一章中提及,常用的研究工具有,日本早稻田大學研發的AntConc、英國利物浦大學開發的WordSmith和CORPRO。其中,AntConc是免費的軟件,WordSmith和CORPRO則需要費用。

在進行語料庫分析前,我們先來簡單瞭解一下語料庫分析流程。


「乾貨」五分鐘學習使用語料庫分析工具

語料庫分析流程

一、建立語料庫

語料庫分析中,我們所使用的語料庫大多是自行建立的。國內比較知名的語料庫大多是文學類或語言類語料庫,對於傳播科系而言,我比較推薦的是慧科搜索新聞研究數據庫。這是由香港慧科訊業創建,香港特區政府和香港中文大學斥資成立。該庫可搜索1000多種平面媒體和6000餘種網站新聞(需要在某寶上購買賬號或通過學校圖書館進行登入)。

需要注意的是,語料庫分析法有效文本數建議在500以上,有效字數在兩萬左右。研究文本量足夠,才能確保研究的準確性也有足夠的可信度,最後的研究結論不會產生以偏概全的錯誤。

為何需要建立語料庫?

建立語料庫,需要考量我們所研究的文本內容和範圍。例如,時間範圍:五年內的新聞報道,特定議題範圍:蘇軾詩文、科技類報道、疫情報道或關於轉基因,諸如此類。以自己所研究主題確定研究樣本後,需要自行建立語料庫。有以下幾點好處: 1、確保文本在圈定的範圍內。2、利於通過專業工具分析。3、確保範圍內的文本適合使用。

如何建立語料庫?

以新聞傳播專業為例:研究主題為五年內(2014年-2019年)五家平面媒體,關鍵詞為轉基因(或基因改造)。總計本研究搜尋文章總計為 1193 篇,剔除不符該研究宗旨報導後共計納入620 篇報導(納入比率 51.97%)。


「乾貨」五分鐘學習使用語料庫分析工具

舉例說明

建立語料庫的方式,就是將研究文本複製貼入「記事本」。

這裡建議三點步驟:

:1、按樣本類型劃分

2、之後按時間劃分

3、將記事本文本改格式為「UTF-8」或「Unicode」(以使用工具所適用格式為準)


「乾貨」五分鐘學習使用語料庫分析工具

實踐說明

二、建立字典

語料庫研究方法中,建立完語料庫後,緊接著就是設立字典。這一步的重要性在於,隨後語料庫將進行斷詞。


「乾貨」五分鐘學習使用語料庫分析工具

斷詞後效果

左圖為斷詞前的完整文本,右圖為斷詞後的文本。建立字典的意義就是語料庫工具斷詞的依據。語料庫工具最早是基於英文單詞設計的,可以準確的對英文文本進行斷詞,但若是中文文本則需額外設立詞典,防止中文語境中的一些詞彙影響工具斷詞的準確性。

1、如何斷詞

設立詞典後,對文本進行斷詞。以免費的研究工具SegmentAnt為例。左下角為研究文本,右下角為字典文本。設置好後導入字典,點擊star即可開始斷詞。


「乾貨」五分鐘學習使用語料庫分析工具

Ant工具斷詞操作畫面

斷詞後,需要重新返回文本審核一遍,將斷詞後文本中未斷詞正確的詞彙,重新填入字典中,重新進行斷詞。

三、研究分析

將全部的文本進行斷詞後,恭喜你,就可以開始研究分析啦。


「乾貨」五分鐘學習使用語料庫分析工具

WordSmith工具分析示意圖

以WordSmith為例,點擊軟件運行後,點擊WordList,左上角新建文本,

點擊Choose Tests Now。隨後則是,右下圖的頁面。點擊確定後,即可開始研究分析。

更多的研究流程,我就不詳細說明啦。對於語料庫研究方法而言,設立語料庫和字典,是研究的基礎和根本。隨後進行斷詞和分析。語料庫研究方法,比較繁瑣的過程便是,收集語料庫文本,將所要研究的文本從網絡上抓取下來,放在記事本中。唯有這一步比較繁瑣,因為研究文本的量往往不少。但好處在於,隨後的研究都可以通過工具軟件自行完成。我們研究者所要做的,就是讀的懂數據,能進行自主分析。


「乾貨」五分鐘學習使用語料庫分析工具

語料庫分析的視覺效果圖,文字雲


分享到:


相關文章: