作者可能是谁通过数据分析可以回答许多历史问题,比如利用频数分布可以推测一部历史作品的作者可能是谁.这种通过统计一些特殊词语在作品中使用的频数,并根据频数分布推断作者的做法已经得到广泛应用.在美国就有一个典型的例子.美国历史上有一部著名的论文集,其中有12篇论文不知道是詹姆斯·麦迪逊(JamesMadison,记为M)写的还是亚历山大·哈密尔顿(AlexanderHamilton,记为H)写的.为了推测作者是谁,统计学家对论文集以外M的50篇文章和H的48篇文章进行了分析,统计每篇文章使用介词by、from、to的次数,结果发现,他们在使用介词by的数量上有很大区别.统计学家是怎样计算一篇文章中使用by的次数呢?他们是按1000字计算的,比如一篇文章包含2500个单词,其中有45个by,则这篇文章使用by的次数是:.利用这种方法,统计学家分别计算了M的50篇文章和H的48篇文章中by的使用次数,并以2为组距对次数(x)进行分组,整理得到下面的频数分布表:次数x频数(H)频数(M)1≤x<3203≤x<5705≤x<71257≤x<91879≤x<114811≤x<1351613≤x<150615≤x<170517≤x<1903总计4850从表中我们可以看出H和M使用by的情况.例如由第2行第2列的“2”可以知道,在H的48篇文章中,有2篇使用by的次数在1≤x<3之间.统计学家利用上面的频数分布表画出如图1、如图2的直方图,又分析了需要确定作者的那12篇论文中使用by的次数,画出如图3图1图2图3(注:在以上三个图中,横轴代表by的使用次数,纵轴代表每一个范围的频数与总数的比.如图1中最高的长方形对应纵轴0.375,是指x在7≤x<9这一范围的频数18除以48所得的结果.)分析上面的三个直方图,统计学家发现,M的文章使用by的情况更接近图3.这个结果为统计学家推测作者不详的那12篇论文可能是M写的提供了重要的依据.当然,这里通过分析频数分布得到的结论只是一种推测,而不是确定的结果,我们不能肯定这12篇论文的作者是M,只能说作者是M的可能性比H的可能性大.