《红楼梦》前80 回与后40 回某些文风差异的统计分析 韦博成 一、引言 在统计学应用的诸多领域中,文学著作的统计分析是一个饶有兴趣的分支
美国斯坦福大学教授Efron(19761987)和他的学生曾经对莎士比亚的著作进行过相当深入的统计分析(见[1], [2]),并指出:1985 年发现的一篇“无名氏”诗稿(仅9 节 429 字)确为莎士比亚所著
Efron 是当今国际上最著名的顶级统计学家之一,他们的工作在当时引起很大反响,另一位国际顶级统计学家Rao 誉之为“一曲统计学的赞歌”(见[3])
《红楼梦》是我国四大名著之首,而且有很多悬而未决的问题,把统计学的定量分析方法引入红学研究是很自然的
早在1980 年,在美国威斯康星大学召开的“首届国际《红楼梦》 研讨会”上, 该校华裔学者陈炳藻教授首次报告了他在这方面的研究工作(见[4],[5]),此后还出版了专著(见[6])
陈教授将《红楼梦》120 回分为三组,每组40 回,并将《儿女英雄传》作为对照组进行比较研究
他从每组中任取8 万字,挑出名词、动词、形容词、副词、虚词这5 种词,然后运用统计学方法算出各组之间用词的相关程度,结果发现: 《红楼梦》前80 回与后40 回所用词汇的相关程度远远超过《红楼梦》与《儿女英雄传》所用词汇的相关程度,并由此推断:前80 回与后40 回均为曹雪芹一人所作
但是,我国华东师范大学陈大康教授得出了迥异的结论(1987, [7])
他也把《红楼梦》120 回分成三组,每组40 回,并统计了其中所含词、字、句等88 个项目
他发现,这些词在前两组出现的规律相同,而与后40 回却不一致;关于用字特点和句式规律,前两组也是惊人的吻合,而后40 回则迥异
由此推断:后40 回非曹雪芹所作(但含有少量残稿)
同时,复旦大学李贤平教授又提出“成书新说”(1987, [8])
李教授选择了47