11.29 AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

關鍵詞:文學名著 文本分析


AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

人工智能又來插手文學界了,只不過這一次是用來「找作者」。

對於一部分文學作品來說,倘若創作者並不確定,再加上年代久遠,沒有詳細的史料記載,作者問題往往就會成為眾說紛紜的謎團。

想要發現事實的真相,需要後世的研究學者們,花費大量的精力去查找資料,進行研究對比。即便如此,也常常因為一些侷限性而得不到最關鍵的證據。

不過,在人工智能的介入之下,似乎又多了一條撥開迷霧的道路。

用數據科學求證《紅樓夢》的作者


對於《紅樓夢》,普遍都認為是曹雪芹創作了前八十回,高鶚整理續寫了後四十回,胡適、俞平伯、周汝昌等文學家也都贊同這一說法。

但文學界也有很多不同的聲音,包括魯迅、林語堂、王國維、白先勇等多位大師都認為:全一百二十回都是曹雪芹一人完成。


1. 1980 年發表的統計學研究

早在 1980 年的首屆國際《紅樓夢》研討會上,就有研究者使用計算機的統計方法,嘗試找出它的實際作者。

美國威斯康星州立大學的華裔學者陳炳藻先生,發佈了一篇《從詞彙上的統計論〈紅樓夢〉的作者問題》的論文,引起了國際紅學界的注意。

陳炳藻將《紅樓夢》一百二十回本按順序編成三組,每組四十回。還將另一部小說《兒女英雄傳》作為第四組進行對比研究。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

《紅樓夢》作者的相關研究已經持續了數百年

從每組中任取八萬字,分別挑出名詞、動詞、形容詞、副詞、虛詞這五種詞,通過當時的計算程序對這些詞進行編排、統計、比較和處理,進而找出各組相關程度。


統計學的結果發現《紅樓夢》前八十回,與後四十回所用的詞彙正相關程度達 78.57%,而《紅樓夢》與《兒女英雄傳》所用詞的正相關程度是 32.14%。

由此陳炳藻教授作出推斷,前八十回與後四十回的作者均為曹雪芹一人所寫。

2. 現代 SVM 算法研究


但如果用機器學習去判斷,又會得出怎樣的結論呢?


近年來就有一位工程師,利用簡單的算法分析,去研究紅樓夢的作者問題。他使用了 Python 工具,通過小說中用詞的頻率等特點進行了訓練,以區分不同部分的風格問題。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

他將全書進行分詞,並進行詞頻統計,找出其中的高頻詞彙後,在每個章節中對其進行次數統計,以此得到了不同章回用詞習慣的區別。


然後使用 SVM 算法搭建了一個模型,從前 80 回和後 40 回中,各選一部分章節餵給模型來學習寫作特點,並把剩下的章節作為輸入,讓計算機來判斷它們屬於哪個部分。


最終模型能夠以 95% 的準確度來進行預測判斷,從而側證了前 80 回和後 40 回在算法模型中,具有很明顯的寫作風格差異,屬於不同的作者。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

前 80 回(紅色)和後 40 回(藍色)用詞習慣統計

這個項目也有缺點,比如選取的特徵太少,最終選擇作為指標的詞彙只有 278 個,而且訓練的內容侷限於一本書中,沒能嚴謹地說明問題。


如果說對《紅樓夢》的作者分析只是小試牛刀,那麼最近一位科學家對名著《亨利八世》的作者研究,則準確和嚴謹了許多。

作者成謎的《亨利八世》,AI 出手了


和《紅樓夢》一樣,英國著名的戲劇文學《亨利八世》,也遇到了同樣的問題,它被稱為是莎士比亞的最後一部作品,但它的實際作者卻可能不止一位。

歷史上的亨利八世是一位極其暴虐的君主,堪比更暗黑的秦始皇,僅在 1513-1547 年間,他就下令處決了約

72,000 名政治犯,甚至還將六任妻子中的兩位送上了斷頭臺。


因為人物本身的話題性和傳奇性,關於他的文學及影視作品一直層出不窮,比如小說及改編的同名電影《另一個波琳家的女孩》、電視劇《都鐸王朝》等。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

《另一個波琳家的女孩》講述了亨利八世的暴戾薄情,由「黑寡婦」斯嘉麗約翰遜和「黑天鵝」娜塔莉波特曼出演

劇本《亨利八世》創作於 1612 年,它是基於亨利八世的相關事件進行的改編和演繹,曾被多次搬上舞臺,取得了很大社會反響。


但很多人在研讀了文本之後,發現它的寫作風格,都和沙翁的其他作品有太大出入。


有人質疑它是旁人所作,或者是合作的產物。直到 1850 年,有研究者具體地指出另一位劇作家弗萊徹可能是《亨利八世》合作者


他的理由是:在《亨利八世》中找到了大量弗萊徹獨有的寫作風格。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

弗萊徹(左)在莎士比亞(右)退任後成為了國王劇團的主劇作家

接下來的一個世紀裡,關於作者的爭論一直沒有停息,甚至有一些觀點裡,認為第三位劇作家馬辛格也參與了創作。


這個謎團,因為最近的一項研究而變得明朗起來。一位數據科學家,利用 AI 算法,更細緻地找出了戲劇《亨利八世》的原作者,而且具體到了文中的每一個小節。

機器學習顯身手,判定誰是真的作者


布拉格捷克科學院的研究員普列查奇(PetrPlecháč) ,最近使用了機器學習技術,來識別《亨利八世》中的作者問題,並取得具有說服力的結果。他的成果被寫成論文,傳到了 arXiv 上。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

地址:https://arxiv.org/pdf/1911.05652.pdf

在這項工作中,普萊查從數據科學的維度,確定了《亨利八世》每一部分究竟是出自誰的手筆,並且給出了具體的論據。


他通過分析文本作品的內容,確定出不同作者的寫作風格的某些特徵,以此對作品進行辨別,並進行細緻的劃分和歸類。


算法最後將《亨利八世》的某些章節歸功於莎士比亞,而另一些則判給了弗萊徹,兩個人對著作的的貢獻幾乎相等。不僅如此,算法還細化出了具體每個小節的作者。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

1623 年首次出版的《亨利八世》首頁

最終,機器學習給出的作者劃分,符合此前某一項主流研究的觀點,並且還取得了一些突破。


從詞彙和節奏入手,辨別文本的來源


他具體是怎麼做到的呢?

一旦瞭解了作者的風格和常用的字詞和樣式,便可以用來辨別新作品中的文本習慣樣式,以判斷它是不是出自同一個作者。

在這項研究中,讓算法模型對文本常用詞、以及常用語句節奏模式,進行學習分析,以使算法學會辨別這些特徵。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

對語句節奏(rhythmic types)和常用詞進行綜合分析,並在其他作品上驗證的模型準確度接近於 1

具體來說,要先將劇本細化到多個小的場景,並使用支持向量機對《亨利八世》的各個場景,進行歸因分析,並進行分類。


其中,以 500 種最常見的節奏類型的頻率,以及 500 個最常見單詞的頻率作為分類器的功能集。


鑑於作者在不同時期可能出現的風格差異,研究者採用了同時期其他戲劇的場景(如《暴風雨》、《科里奧拉納斯》)作為訓練樣本。對於可能的作者,也同樣收集了訓練樣本。


最終收集了 53 個莎士比亞訓練樣本,90 個弗萊徹訓練樣本和 46 個馬辛格訓練樣本。為了估計模型的準確性,還通過交叉驗證的方式進行檢驗。


完成訓練學習後,將模型在《亨利八世》的文本上運行,結合詞彙和多功能化的綜合分析,確定哪些作者參與了劇本的寫作,以及他們的具體貢獻。

最後的結果證明,這是區分兩位作者風格的非常可靠的判據。尤其是使用常用詞和常用節奏的組合模型,在三位作者的風格鑑定上,準確率高於 96%。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

分類器對不同章節 30 個樣本的分類結果,結果比公認最權威的作者劃分(最後一欄)更細緻

當應用於《亨利八世》的分析時,結果清楚地表明兩位作者都參與其中。另一位傳聞的劇作家馬辛格,則在算法的層面上表明他和劇本無關。

新方法細化出每個小節的作者


為了更可靠地瞭解具體作者承擔的份額,超越特定場景的簡單歸因,普萊查奇採用了叫做滾動歸因(rolling attribution)的分析方法,確定具體文本片段的屬於某位作者的概率。

滾動歸因是一項針對涉及混合作者身份的案例的技術。在滾動歸因中,不對整個文本或其邏輯部分(章節,場景等)進行分類,而是對其固定長度的重疊部分進行分類任務。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

滾動歸因判斷兩位作者其他作品的作者組成和實際中的情況高度符合

該方法使用移動窗口的概念,並與標準的監督分類技術相結合。旨在評估離散文本樣本之間的樣式差異,以測試其文本樣式的一致性。


結果表明,結合了詞彙特徵的滾動歸因方法是非常可靠的:在區分莎士比亞和弗萊徹時,估計滾動歸因的準確性高達 0.9977。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者

具體到每個章節的作者劃分和可信度

使用這種方法,最後具體確定了每個章節歸屬於某個作者的可能性,在上圖中,可以清晰地看到莎士比亞和弗萊徹各自完成的章節。結論就是:莎士比亞和弗萊徹各完成了近一半的內容創作。


AI 在文學領域摩拳擦掌


通過 AI 算法,去破解名著的作者之謎,對於文學研究者和愛好者來說,都是一件很有價值的事情。同時也提供了一個數據維度的視角,去看待此類問題。


當然,類似的 AI 方法除了應用於作者鑑定,代筆或者抄襲判斷,還可以結合 GPT-2 之類的技術,生成某一風格的作品,這對那些在歷史長河中遺失的著作,或許能夠進行更好的還原。

如果借鑑到音樂和繪畫等方面,不僅可用於確定作者身份,還能利用已知作者的風格來創作出新的作品。

這麼想想,AI 成為大文豪的日子似乎也可以提上日程了呢。

AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者



AI 插手!用文本分析鑑定《紅樓夢》、《亨利八世》實際作者


分享到:


相關文章: