作者可能是谁通过数据分析可以回答许多历史问题,比如利用频数分布可以推测一部历史作品的作者可能是谁.这种通过统计一些特殊词语在作品中使用的频数,并根据频数分布推断作者的做法已经得到广泛应用.在美国就有一个典型的例子.美国历史上有一部著名的论文集,其中有12篇论文不知道是詹姆斯·麦迪逊(JamesMadison,记为M)写的还是亚历山大·哈密尔顿(AlexanderHamilton,记为H)写的.为了推测作者是谁,统计学家对论文集以外M的50篇文章和H的48篇文章进行了分析,统计每篇文章使用介词by、from、to的次数,结果发现,他们在使用介词by的数量上有很大区别.统计学家是怎样计算一篇文章中使用by的次数呢
他们是按1000字计算的,比如一篇文章包含2500个单词,其中有45个by,则这篇文章使用by的次数是:.利用这种方法,统计学家分别计算了M的50篇文章和H的48篇文章中by的使用次数,并以2为组距对次数(x)进行分组,整理得到下面的频数分布表:次数x频数(H)频数(M)1≤x<3203≤x<5705≤x<71257≤x<91879≤x<114811≤x<1351613≤x<150615≤x<170517≤x<1903总计4850从表中我们可以看出H和M使用by的情况.例如由第2行第2列的“2”可以知道,在H的48篇文章中,有2篇使用by的次数在1≤x