大数据会不会抢了文学评论家的饭碗?

所评图书:

书名:《纳博科夫最喜欢的词》

出版社:北京联合出版公司

出版日期:2019年1月

大数据会不会抢了文学评论家的饭碗?


《联邦党人文集》发表时,署名为“普布利乌斯”,这是一个具有爱国含义的、源自古罗马的笔名。这一系列文章共有85篇,由亚历山大·汉密尔顿、詹姆斯·麦迪逊、约翰·杰伊完成。但这就像是《纽约时报》等传统大报的社论没有明确列出撰文者姓名一样,85篇文章中,究竟哪些是汉密尔顿完成,哪些由麦迪逊执笔,又有哪些是杰伊作品,人们只能大体揣测。

到了1804年,也就是汉密尔顿奔赴与伯尔的决斗的那一年,汉密尔顿列出了《联邦党人文集》中每一篇的对应作者。按理说,《联邦党人文集》创作者的谜团就该被揭开。

但麦迪逊在其总统任期结束后不久,列出了著作清单,而这与汉密尔顿所说的就存在出入。《联邦党人文集》中的12篇文章,同时被汉密尔顿和麦迪逊确定为自己的作品。美国开国时期的两位知名政治家的粉丝们,围绕这个问题吵了100多年。

直到1963年,美国哈佛大学、芝加哥大学的两位学者通过统计学的方式,揭开了问题的真相。其具体做法是根据汉密尔顿或麦迪逊所写的文章,分别统计某些常用词出现的频率,然后对署名存疑的那12篇文章,分析相同词语出现的频率,最终得出结论。通过分析显示,麦迪逊是那12篇文章的作者。

用统计学的数据分析方法,来探究作家尤其是知名作家、与他人出版合著作品的作者的作品,究竟是其本人作品,还是代笔“产品”,这样的方法思路近年来被经常使用。尽管理论上,因寻求代笔的作者心虚,而会故意调换代笔作品中的表述方式,尽可能向着与本人作品相近的方式靠拢,但鉴别者却不会刻板的依照惯用套路来提取分析词汇。

曾任《石板》、《哈佛讽刺家》等杂志撰稿作家,为《波士顿环球报》等媒体撰稿的专栏作家本·布拉特出版了一本相当有趣的书《纳博科夫最喜欢的词》。这本书采用统计学的数据分析方法,对现代英美文学的代表作家、作品进行了提取分析,得出了很有意思的一批结论:

文学作品中的副词,用得越少,相对而言就越可能成为经典作品。那些最终名满江湖的大作家,在创作早期会更多地使用副词,而在创作成熟期,用得就会少得多。

对主要由英语作家所组成的作者的代表作品进行分析可以发现,男性作家的经典作品压倒性地偏向男性角色,而女性作家的经典作品虽然稍稍偏重女性角色,却与平均值相差不远。这在某种程度上确实是社会观念和存在这种,性别不平等的直接表现。

从19世纪到20世纪,再到而今,越往后,知名作家在作品中使用修饰词的频率就越低。这就使得文学爱好者阅读19世纪的经典英语文学作品时,不得不面对大量的修饰词;同样,时间越往后,在畅销书榜上排位前列的作品,词汇长度、词汇数量和难度都趋于更低——有意思的是,与19世纪以及20世纪大多数时期相比,而今的美国政坛的许多政治演讲,比如总统的国情咨文,复杂度也大大降低。如果你是一个乐观主义者,可以将这种变化解读为美国的文学更加民主化,能够被更多读者读到,美国的政治也趋于贴近民众——然而,你要是有批判精神,就能得出结论,不但美国的政治变得越来越愚蠢,而且连文学也在不断丧失其底线……

亚马逊等电商网站开出的值得阅读的文学作品书单中,存在较大的国别差异。美国书单以美国作家为主,占到了六成多,英国书单也是以英国作家的作品为主——尽管20世纪末,英国作家罗琳推出的《哈利·波特》系列在美国也很受欢迎,但也仍然不能改变美国读者偏重于阅读美国作家作品的局面。

经典作品的开头通常相当简洁,与之同时,还要符合独创性的特征。也就是说,如果作家能够写出新意,很短的开头,其本身所带有的魅力就会为作品增色。

……

挖掘优秀的、经典的文学作品中的特征,这通常被认为是文学鉴赏家、评论家、书评家干的活儿。但正如《纳博科夫最喜欢的词》这本书所揭示的那样,数据分析从鉴赏家、评论家很少涉及的其他角度,反映出伟大作家在其创作成长中,具有共性的风格、方式转变,而这本身对于文学爱好者、初创期作家具有很现实的借鉴意义。

那么,大数据、统计学被应用到文学分析领域,会不会抢了文学鉴赏家、评论家、书评家的饭碗呢?某种意义上讲,那将是不可避免的一种社会后果。但我们不妨也以乐观的心态来面对这样的应用,因为唯有如此,才能迫使文学鉴赏家、评论家、书评家变得更加努力,让自己的鉴赏和评价变得更加独特,避开数据所长。


分享到:


相關文章: