11.15 從詞頻分析的角度看吳氏石頭記和80回《石頭記》的關係

摘要:2008年,網絡上出現了一部《石頭記》本子,此本共108回,被紅學愛好者稱為癸酉本或吳氏石頭記。此本後28回故事情節極其令人震驚,與原《石頭記》前80回情節對榫。然而,紅友們對於這個本子的真偽卻莫衷一是。本文擬利用多種人工智能大數據軟件配合人工方法,對原《石頭記》80迴文本和吳氏石頭記後28迴文本進行詞頻分析,比較二者異同,結果我們發現兩個版本在高頻詞的運用上有相當程度的一致性,個別較低頻的特色詞也在兩個版本都有出現,但確有個別高頻詞和特色詞在對方版本中出現頻率極低,甚至完全沒有,如"所以"、"可巧"等詞。結論:《石頭記》成書是個比較複雜的過程,可能有多人參與創作,“曹雪芹”是化名,他是其中一個重要的增刪者。原《石頭記》80回和吳氏石頭記並非同一個人所作,然而兩個本子可能源於一個共同的母本,吳氏石頭記就是一個較早的版本。

關鍵詞:癸酉本,吳氏石頭記,《石頭記》,詞頻,相關性

一,《紅樓夢》及紅學兩大派別

《紅樓夢》原名《石頭記》,是中國古典文學的巔峰之作。一般認為,《紅樓夢》的作者是清代作家“曹雪芹”。該書歷史上流傳下來很多版本,其中學界一般認為120回通行本的後40回不是“曹雪芹”的原著,而是後人的續作,但也有不同看法。一部沒有最終結局的《紅樓夢》引起了學界幾百年的爭論:《紅樓夢》這部書到底創作的宗旨是什麼?要表達什麼思想?書中人物的結局分別是什麼?由此還發展出一門紅學。主要觀點有兩派:1,考證派。運用杜威實證主義方法,注重考證曹雪芹家事、《紅樓夢》版本和成書過程。認為《紅樓夢》是一部自傳體小說,反映的是江寧織造曹家的興衰史。這個學派的主要代表人物有胡適、周汝昌等。2,索隱派。又稱政治索隱派。透過書中的諧音、拆字、藏頭、謎語、讖緯等線索,用歷史上或傳聞中的人和事去考索《紅樓夢》,考索出“所隱之事,所隱之人”。例如蔡元培先生的“吊明之亡,揭清之失”的觀點。應該說上個世紀考證派是一個主流派別,索隱派被邊緣化。

二,吳氏石頭記及其來歷

2005年劉心武先生在百家講壇揭秘《紅樓夢》,認為《紅樓夢》是暗喻康雍乾三朝的宮廷政治鬥爭以及曹家在這場鬥爭中的家族興亡史。2008年有一個網名叫何莉莉(又名趙文夕)的網友在網上公開了一個抄錄本,就是後來被稱作癸酉本或者吳氏石頭記的第81回至108回,寫的是原80回《石頭記》後來的故事,有完整的回目和回前詩,情節出乎所有人的預料,但卻和前80回的批語透漏出的人物故事結局高度吻合,也印證了蔡元培先生的排滿之說,即明寫青年男女的愛情故事及家族的興衰,實際上是暗喻明清交際改朝換代的歷史。為什麼把此版本稱為癸酉本或吳氏石頭記呢,那是因為在此版本的最後一回結尾出現了這麼一段批語:“本書至此告終,癸酉臘月全書謄清。梅村夙願得償,吾所受之託亦完。若有不妥,俟再增刪之。雖不甚好,亦是盡心,故無憾矣。”從而可以得知此書的落款時間為癸酉年,故名"癸酉本";而批語中的梅村是指吳梅村(明末清初著名詩人,文學家),即本書的原作者,故又稱“吳氏石頭記”。此版本在社會上引起了軒然大波,支持者認為這才是《紅樓夢》的真實結局,和前80回的情節遙相呼應堪稱完美。但很快就有人指出該版本中很多詩詞質量低劣,且文風和前80回迥然不同還夾雜著大量現代詞語。何莉莉則解釋目前發佈的文字是其姐姐從原本上過錄下來的,其姐姐文化水平不高,在抄寫過程中對原文進行了相當程度的刪改。後又有人指責上述關鍵批語是偽造等等,一時眾說紛紜。目前主流紅學界對此版本大都保持沉默,也有的持否定態度。

從詞頻分析的角度看吳氏石頭記和80回《石頭記》的關係

三,本研究的目的和使用的方法

面對這個有種種缺陷的吳氏石頭記,我們想分析它的真偽肯定有相當的難度。我們採用的方法是考察吳氏石頭記後28回的文字和原《石頭記》前80回的文字相關性,即使用人工智能的詞頻統計軟件對前後兩部分高頻詞進行統計,比較兩部分高頻詞使用狀況的異同。另外我們也考察了一些特色詞在兩個版本中的出現情況。最後再綜合分析給出一個客觀的結論。

四,版本的選取

《紅樓夢》的版本眾多,版本之間的文字都稍有差異,我們在網上找了一個不帶批語的120回通行本(人民文學出版社 1987.4),我們截取了前80回的文本,作為底本。然後為了慎重起見我們又找了一個帶批語的《石頭記》版本,也一併作為分析的底本。吳氏石頭記的選取,最新一版的吳氏石頭記和原版本的文字變異較大,綜合考慮我們還是選取了比較忠實於吳氏石頭記最初原貌的一個早期電子版本作為底本(出版人:金俊俊,何玄鶴)。

五,詞頻統計軟件的選取

我們在網上查詢了多家在線詞頻統計系統,各家的統計原理不盡相同,結果也有一定的差異,最後選取了兩家,一個是圖悅在線詞頻統計,它除了能統計詞頻還可以統計權重;另外一個就是sco在線詞頻查詢,它的分詞方式和圖悅有差別,它會把兩個字的詞和包含這兩個字的三字詞分開統計,但它的優點是除了統計詞頻,還能統計出現率。最後我們把圖悅作為我們的主要統計工具,sco作為補充工具。

六,詞頻統計結果及分析

首先我們要明確的是三個版本的字數規模,吳氏石頭記後28回大約在21.8萬字左右,不帶批語的通行本80回約62.55萬字,帶批語的80回有71.8萬字左右,也就是說吳氏石頭記的正文大約是前80回正文的三分之一左右,那麼吳氏石頭記詞頻如果為前80回正文三分之一左右屬高度相關,但可能受情節變化等因素的影響,一些詞頻可能有比較大的變化,我們為慎重起見,把吳氏石頭記的詞頻高於前80回本詞頻六分之一規定為正常,低於六分之一為異常。

首先,脂批本有很多批語的專用詞,如甲戌、庚辰這樣的表達時間的詞,這些詞和不帶批語版本進行比較是無意義的。另外表格里人名佔了很大一部分,而且隨著情節的變化,人名的頻次和權重發生變化這是很正常的,所以我們把上述高頻詞分門別類進行比較,去掉無比較意義的批語專用詞,把人名專用詞和非人名詞分開比較,以便觀察各版本的分佈特點。三個版本的人名和特指專人名詞因為表格不能太長,只取6個分析如下:

三本人名高頻詞統計表(部分)

從詞頻分析的角度看吳氏石頭記和80回《石頭記》的關係

我們看到和前80回相比,在上表格中吳氏石頭記中一些人物名字的頻次和權重排序發生了一些較大變化,這個主要是情節變化產生的影響,比如鳳姐,賈母,王夫人等人在前80回具有很高的詞頻和權重,但在吳氏石頭記中頻次權重卻下降得很明顯,這個主要原因是在癸酉本中王熙鳳、賈母、王夫人等都過早地死去,退出了舞臺,導致相關數據下降,而賈政、妙玉、趙姨娘、賈環、金桂等人隨著情節的發展他們的頻次權重有明顯增加。吳氏石頭記的絕大多數人物基本上和前80回保持相關性,沒有出現新的權重人物。只是隨著情節的發展,人物頻次權重有所調整,尚在正常範圍內,但是也發現了一個異常詞:“聖上”,該詞在前80回裡只出現了1次,是在第15回“王鳳姐弄權鐵檻寺 秦鯨卿得趣饅頭庵”裡面,水溶又將腕上一串念珠卸了下來,遞與寶玉道:“今日初會,傖促竟無敬賀之物,此係前日聖上親賜鶺鴒香念珠一串,權為賀敬之禮。”而吳氏石頭記裡面“聖上”卻出現了34次之多,而且多有對聖上指責之詞,如第85回中下述文字:“原來元春因國事辛勞累成小恙,說國之東北有一島國屢屢侵犯海疆,另有戎羌覬覦,黃巾赤眉一干流寇造釁,聖上驚慌無措,又無人肯出頭迎敵,只得自告奮勇為聖上分憂,親上戰場鼓舞士氣,因多日奔波勞苦,不覺病倒,此回千叮嚀萬囑咐,趕緊把眾公子、小姐的親事辦了,自己也十分關心寶玉成親立業。” 東北一島國,戎羌,黃巾赤眉等句很明顯是影射明朝歷史,分別指的是倭寇、 滿清、 李自成等起義首領。86回:“豈料近幾年大旱不雨,蝗災肆虐。因之東北距之海路三千里有一蠻夷島國,人稱‘玉戶島’某屢屢滋事侵犯海疆,意圖不良。坎方有戎羌入侵,坤方有流寇作反。更有坎方痘疹等瘴疫流傳,平民死亡愈萬。賈赦被派往坤方聽令,賈政等皆被聖上召集前往海疆監督防禦工事。平安州亦有流賊造反,節度使命賈璉前去應奉公事,一連數月未歸。”這和上面一樣都寫得很露骨。87回:黛玉道:“又打敗了嗎?”寶玉泣道:“可不是,聖上打不過人家就派人說情,說只要與海寇聯了姻,就是親戚了,仗保準打不起來了。”平兒道:“聖上竟出如此下策,要南安郡王的女兒和親。南安郡王比咱有勢力,怕自己女兒嫁到那裡吃苦,就要到咱家找人頂替。”還有下面:黛玉道:“聖上也太沒個籌算了,叫人欺負到家門口,尚要和顏悅色討好他們和親,竟是昏曖不明瞭!”探春忙握住他的口道:“快別說了,這話不好聽,仔細外頭聽見。”黛玉低了頭不言語了。105回:蠢物道:“奶奶此次回來,可曾知道賈家已家敗人亡了!”鳳姐聽了如被雷擊一般,哭道:“到底又為什麼?你別嚇我啊。”蠢物道:“我見你回來,猶矇在鼓裡,替你有所不值。奶奶可知,如今的天下早不是漢人的天下,都是戎羌的天下了。聖上被…強盜攻破京城,官員全被斬首,新帝早已登基,你們王家也都死在賊寇之手了。”鳳姐聽了如被人摘去心肺一般痛哭起來。

這些再明顯不過的犯忌語言,也使我們理解為什麼吳氏石頭記不能在社會上流傳起來,因為在當時嚴酷的文字獄背景下,這無疑是一部干涉時政的反書。這似乎和第一回作者所述宗旨有點違背,作者肯定是有話要說,即把一段真事隱藏於假語村言中,但如此直白地表達和前80回的風格似大不相同。在第一回中有關本書宗旨有以下敘述:

【此書只是著意於閨中,故敘閨中之事切,略涉於外事者則簡,不得謂其不均也。】

【此書不敢幹涉朝廷,凡有不得不用朝政者只略用一筆帶出,蓋實不敢以寫兒女之筆墨唐突朝廷之上也。又不得謂其不備。】

【此書開卷第一回也,作者自雲:“因曾歷過一番夢幻之後,故將真事隱去,而撰此《石頭記》一書也,故曰‘甄士隱夢幻識通靈’ ”】。

以上種種顯示作者似有要將某種不方便直接表達的情節、觀點通過隱晦的方式表達出來,但該表達可能要寫得非常隱晦,如吳氏石頭記如此直接影射明末清初歷史恐怕非是前80回作者的本意,儘管我們認為該情節和前80回吻合得非常好。

下面我們重點對非人名的高頻詞進行分析。現只取其中6個,也可看出一斑:

三本非人名高頻詞統計表(部分)

從詞頻分析的角度看吳氏石頭記和80回《石頭記》的關係

從上表中我們驚奇地發現,吳氏石頭記和脂批80回的前四個高頻詞竟然完全一樣且高度相關:笑道、姑娘、只見、眾人這四個詞,尤其“笑道”這個詞,過去就有網上文章提到《紅樓夢》裡的人愛笑,指小說裡大量使用“笑道”這個詞,在前80回非人名詞頻裡排名第一,令人震驚的是吳氏石頭記中“笑道”也高居非人名類詞頻的榜首。同樣,我們可以查一下程高本的後40回續書“笑道”這個詞的頻率位次只排在第11位,明顯低於前80回和吳氏石頭記.當然在吳氏石頭記中也出現了一些獨有的高頻詞,如眾賊,強盜,賊寇等等,這是因為在吳氏石頭記中情節發生了急劇變化,天下大亂,盜賊蜂起,作為明朝政權象徵的賈府也被內憂外患所困擾。除了這些詞外,前後兩版本的高頻詞大多還是具備一定相關性的。那能否就簡單地認為兩版本就是一個作者?恐怕還沒有那麼簡單。我們只能說不排除吳氏石頭記作者和前80回《石頭記》是同一作者的可能性。因為很快我們又發現了新的問題,即圖悅並沒有統計諸如“什麼”、“怎麼”、“這樣”、“東西”等這些更基本的常用詞,我們覺得這些詞雖然是一些古今通用的高頻常用詞,但如果把他們在兩本當中的頻次比較一下也許會發現新的問題。我們在網上發現了一個叫糖果雲的軟件,它曾統計了《紅樓夢》中一百個高頻詞,然後我們用文檔的查找功能分別統計了上述100個詞在《石頭記》前80回,《紅樓夢》通行本前80回,癸酉本28回中的相關詞頻。現只取7個:

從詞頻分析的角度看吳氏石頭記和80回《石頭記》的關係

從上面表格中我們確實發現了重大的問題,首先看“所以”這個在前80回中出現了292次的高頻詞,在吳氏石頭記中竟然只出現了一次!很難相信在前80回六十多萬字中使用了二百多次的“所以”在後28回二十多萬字中居然只用了一次。如果不是藏書者抄錄的原因,那麼很難相信這兩個版本是一人所作,還有“鳳姐兒”這個詞,在前80回中“鳳姐”和帶兒化音的“鳳姐兒”都有使用,但在後28回中只有“鳳姐”沒有“鳳姐兒”。其他吳氏石頭記中頻次較少和前80回不成比例的詞和習慣用法還有“今日”、“罷了”、“說著”、“一面”、“這一”等等。這些前80回高頻詞在吳氏石頭記中的頻次急劇下降,我們不得不指出吳氏石頭記的作者和80回《石頭記》的作者用詞習慣不同,可以排除二者是完全相同的一個作者。

特色詞的比較

我們知道《紅樓夢》的語言文字非常生動形象,其中的人物使用了大量生活中的口語,或者帶有那個時代特色的詞語。下面我們找了一些特色詞分析前後兩個版本中使用異同。

從詞頻分析的角度看吳氏石頭記和80回《石頭記》的關係

先看“這會子”這個詞在前80回中使用頻次為208次,而吳氏石頭記中只有8次,該詞有的說是北京方言,也有說是山西晉南方言。在中國古代小說中如此高頻地使用該詞還只有《紅樓夢》如此。吳氏石頭記的“這會子”和前80回比起來,頻次明顯過少。我們也查了一下其他明清小說,“這會子”這個詞難說是高頻詞,吳氏石頭記中“這會子”的使用頻率和這些小說中的頻率相對接近,所以它在前80回中如此高頻使用值得我們深思,也許它是解決《紅樓夢》作者問題的一把鑰匙。相同情況的詞還有“素日”、“倘或”、“打發”、“一早”、“前兒”“橫豎”等等,這些詞吳氏石頭記中的出現率明顯低於前80回,佔比只有不到十分之一,特別要提到的是前80回中“可巧”這個出現91次的詞在吳氏石頭記中竟沒出現。吳氏石頭記中多用打量,而前80回既用“打量”也用“打諒”。前80回多用“伏侍”,偶爾用“服侍”, 吳氏石頭記只有“服侍”,前80回中用了清朝的禮儀“打千兒”4次,而癸酉本中卻用了4個“道個萬福”這種漢族禮節。前80回使用兒化音比較多,如“猴兒崽子”等,吳氏石頭記兒化音相應較少,用的是“猴崽子”等。當然,也有“小廝”、“裡間”、“忖”、“勞什子”、“真真”“唬”等前後兩本頻次比較正常的特徵詞,另外有文章提到《紅樓夢》前80回多用“帕”,而程高本的後40回多用“絹”,在吳氏石頭記中我們看到也是多用帕,這一點和前80回比較符合。綜上所述我們認為從特色詞這個角度看,吳氏石頭記和前80回有一定的關係,但也有相當大的用詞區別。

結論

如果我們假設《紅樓夢》的正文是由一個作家“曹雪芹”獨立完成,而一個作家的寫作習慣在文本中應該是相對穩定的,那麼“聖上”、“所以”、“可巧” 、“素日”、“這會子” “倘或”、“打發”、“一早兒”、“前兒” 這些高頻詞和特色詞在吳氏石頭記中急劇減少,只能說明吳氏石頭記後28回和前80回不是一個作者。那麼也許有人會提出會不會是抄錄者的因素導致這種變化,但我們想不明白抄錄者有何動機如此做。另外,從 “笑道”、“眾人”、“姑娘”、“只見”、“一時” “真真”、“勞什子”、"帕"等高頻詞和特色詞的應用上我們又覺得吳氏石頭記和80回《石頭記》之間有一定的關係。那麼是什麼導致瞭如此完全相反的結論呢?我們做如下分析,首先《紅樓夢》的成書過程可能極為複雜,我們看第一回中關於本書來歷的一番敘述:

空空道人聽如此說,思忖半晌,將《石頭記》【甲戌側批:本名。】再檢閱一遍,【甲戌側批:這空空道人也太小心了,想亦世之一腐儒耳。】因見上面雖有些指奸責佞貶惡誅邪之語,【甲戌側批:亦斷不可少。】亦非傷時罵世之旨,【甲戌側批:要緊句。】及至君仁臣良父慈子孝,凡倫常所關之處,皆是稱功頌德,眷眷無窮,實非別書之可比。雖其中大旨談情,亦不過實錄其事,又非假擬妄稱,【甲戌側批:要緊句。】一味淫邀豔約、私訂偷盟之可比。因毫不干涉時世,【甲戌側批:要緊句。】方從頭至尾抄錄回來,問世傳奇。從此空空道人因空見色,由色生情,傳情入色,自色悟空,遂易名為情僧,改《石頭記》為《情僧錄》。至吳玉峰題曰《紅樓夢》。東魯孔梅溪則題曰《風月寶鑑》。【甲戌眉批:雪芹舊有《風月寶鑑》之書,乃其弟棠村序也。今棠村已逝,餘睹新懷舊,故仍因之。】後因曹雪芹於悼紅軒中披閱十載,增刪五次,纂成目錄,分出章回,則題曰《金陵十二釵》。【甲戌眉批:若雲雪芹披閱增刪,然則開卷至此這一篇楔子又系誰撰?足見作者之狡猾之甚。後文如此者不少。這正是作者用畫家煙雲模糊處,觀者萬不可被作者瞞蔽了去,方是巨眼。】並題一絕雲:

 滿紙荒唐言,一把辛酸淚!

都雲作者痴,誰解其中味?”

從上述一段敘述當中,本書的第一作者是石頭,它將自己的經歷記在石上,然後是"空空道人"是他將書從石頭上抄錄下來,然後是吳玉峰、孔梅溪,最後增刪者才是“曹雪芹”,還有“曹雪芹”之弟棠村似也參與了創作, 上面提到的這些人名裡有幾人是真名?有幾人是偽託?書名則從《石頭記》,到《情僧錄》,再到《紅樓夢》,《金陵十二釵》,另外《石頭記》還有多位批書人:脂硯齋、畸笏叟、松齋、棠村等。所以我們大膽地推理,《石頭記》很可能是多人長時間的共同創作,非“曹雪芹”一人獨立完成,“曹雪芹”只是其中最重要的增刪者。近年來關於《紅樓夢》的作者以及成書過程出現了很多新的觀點,傳統的紅學觀點遭到嚴重的質疑,“曹雪芹”是曹寅之孫的觀點並不可靠。我們認為在“曹雪芹”增刪潤色之前,很可能就有了《紅樓夢》的某種底本,其中的故事情節已經完整,最初的作者很可能是明朝的遺民,寫書的目的就是懷念明朝故國,表達對當政的滿清統治者不滿,吳氏石頭記可能就出自這個底本。在清初嚴酷的文字獄背景下,吳氏石頭記無疑是反書一部,所以只在少數人當中傳閱,“曹雪芹”作為最後的增刪潤色者肯定試圖把書中犯了大忌的語言文字情節修改得更隱晦,應該說前80回潤色修改得非常成功(增加了一些屬於“曹雪芹”的高頻詞),文筆極其精彩老練,但面對後28回指責滿清統治者的露骨情節,曹氏也感到很難修改,所以脂硯齋才有“書未成,芹為淚盡而逝”的遺憾。這也是世上只流傳了80回沒有結局的《石頭記》原因。如此我們才能解釋吳氏石頭記略顯粗糙,和前80回之間異中有同,同中有異的現象,當然要想徹底揭開吳氏石頭記的謎底,還需藏家何莉莉公開藏本。

參考文獻:

1.癸酉本《石頭記》後28回,金俊俊,何玄鶴 編,當代世界出版社

2.《紅樓夢》前80回和後40回的差異,汪維新,浙江大學

3.基於計算機的詞頻統計研究——考證《紅樓夢》作者是否唯一,李國強,李瑞芳,瀋陽化工學院學報

4.用Python分析《紅樓夢》後40回是曹雪芹所寫嗎? 樓宇 知乎,Python中文社區

5.紅樓夢 曹雪芹 高鶚著 人民文學出版社 1987.4

6.紅樓探佚 丁維忠著,京華出版社2006

7.紅塵冷眼魘紅樓:紅樓方家譚 周汝昌等著 團結出版社,2006.6

8. 戚蓼生序本《石頭記》,2011.04

———————————————————

校對:王華東 至真齋主 編輯:瀟湘夜雨

深度解讀,高屋建瓴。吳氏紅學,高端學術。 知識的盛宴,智慧的光芒。

新觀點、新視角,同一部紅樓夢,不一樣的文章。


分享到:


相關文章: