《红楼梦》前80 回与后40 回某些文风差异的统计分析 韦博成 一、引言 在统计学应用的诸多领域中,文学著作的统计分析是一个饶有兴趣的分支。美国斯坦福大学教授Efron(19761987)和他的学生曾经对莎士比亚的著作进行过相当深入的统计分析(见[1], [2]),并指出:1985 年发现的一篇“无名氏”诗稿(仅9 节 429 字)确为莎士比亚所著。Efron 是当今国际上最著名的顶级统计学家之一,他们的工作在当时引起很大反响,另一位国际顶级统计学家Rao 誉之为“一曲统计学的赞歌”(见[3])。 《红楼梦》是我国四大名著之首,而且有很多悬而未决的问题,把统计学的定量分析方法引入红学研究是很自然的。早在1980 年,在美国威斯康星大学召开的“首届国际《红楼梦》 研讨会”上, 该校华裔学者陈炳藻教授首次报告了他在这方面的研究工作(见[4],[5]),此后还出版了专著(见[6])。陈教授将《红楼梦》120 回分为三组,每组40 回,并将《儿女英雄传》作为对照组进行比较研究。他从每组中任取8 万字,挑出名词、动词、形容词、副词、虚词这5 种词,然后运用统计学方法算出各组之间用词的相关程度,结果发现: 《红楼梦》前80 回与后40 回所用词汇的相关程度远远超过《红楼梦》与《儿女英雄传》所用词汇的相关程度,并由此推断:前80 回与后40 回均为曹雪芹一人所作。 但是,我国华东师范大学陈大康教授得出了迥异的结论(1987, [7])。 他也把《红楼梦》120 回分成三组,每组40 回,并统计了其中所含词、字、句等88 个项目。他发现,这些词在前两组出现的规律相同,而与后40 回却不一致;关于用字特点和句式规律,前两组也是惊人的吻合,而后40 回则迥异。由此推断:后40 回非曹雪芹所作(但含有少量残稿)。 同时,复旦大学李贤平教授又提出“成书新说”(1987, [8])。李教授选择了47 个虚字为识别特征,诸如:“之、其、或、亦、了、的、不、把、别、好”等等,利用各种统计方法(主成份分析、典型相关分析、聚类分析等),对它们在书中各回的出现频率进行统计分析,探索各回写作风格的接近程度,并用三个层次的聚类方法对各回进行分类。由此提出了成书过程新观点:《红楼梦》前80 回是曹雪芹根据《石头记》增删而成;而后40 回则是曹家亲友搜集整理原稿加工补写而成。 李贤平教授的观点也受到质疑,例如,陈大康教授(1988, [9])认为其“成书新说”难以成立。台湾成功大学王三庆教授也提出若干不同意见(1994, [10]...