第1页共7页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第1页共7页论网站点击次数的正态分析方法奚回(单位略陕西西安710068)李兴波(保定金融高等专科学校河北保定071000)(特别说明:本文是作者为了学习实证分析方法而刻意研究的一个问题,实用意义可能不大,练笔而已,敬请各位专家批评指正。)摘要:现行的网站点击次数分析方法有明显的缺陷,其根源在于没有对点击次数作随机变量考察。本文作了这种考察,并验证了它服从正态分布。正态分布的参数可以帮助网站分析其发展状况、与同业比较、制定科学的管理目标、考核员工等多种分析目的。这种以正态分布为基础的分析方法,本文暂称为网站点击次数的正态分析方法。关键词:点击次数;分析方法;正态分布;参数一、网站点击次数现行分析指标的缺陷和本文问题的提出随着我国经济社会的发展,计算机网络的应用已越来越普及,并发挥着越来越重要的媒介作用,因此,如何管理网络也变得越来越重要。对一个网站来讲,点击次数(本文的分析方法,也适用于其他类似于点击次数的现象,如“某论坛某天发表的文章数”)的高低直接影响着其经营目标的实现程度,所以各网站总是极尽所能地提高其点击次数,并引入了一些与点击次数有关的分析指标,如最高点击次数、点击次数的不同期比较、点击次数的时间序列变化、一定期间点击次数的平均值等[1]。同时,对于点击次数及其他网络流量信息重要性的关注也催生了商业性分析软件的应用,如ITSUN网站流量统计分析系统[2]。虽然这些指标(含分析软件所用指标)能够在一定程度上反映网站的管理状况,但是就对于点击次数的分析程度来讲,仍存在着明显的缺陷。主要表现在:1、网站的访问者主要是网站无法控制的客户,所以点击次数是随机变量,上下变动频繁,这使现行分析指标的直接根据点击次数绘制的时间序列图波动剧烈、趋势弱。虽然我们可以作回归分析来反映总体趋势,但回归直线和曲线的代表性都很差,如图1所示回归直线的R2仅为0.0713,回归曲线的R2仅为0.1。而且回归线也不能提供更为详细的变动信息。第2页共7页第1页共7页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第2页共7页图1是根据“晋城在线”网站2005年7月1日至12月31日的点击次数绘制的时间序列图和回归线图,它说明了此缺陷的存在:2、最高点击次数是极端值,价值有限。3、各网站客观上需要能够在同业间相互比较的标准指标。4、考察点击次数出现在某个区间的概率(或频率)有助于网站制定科学的管理目标和考核标准。但现行的分析方法没有涉及此分析角度。5、点击次数存在“周周期性”,即点击次数以一周为一个周期上下波动。图2是晋城在线两周的点击次数时间序列图,它直观地说明了其点击次数存在周周期性:点击次数存在周周期性的原因,可能是因为大部分用户访问网站的时间第3页共7页第2页共7页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第3页共7页受其工作时间的周周期性的影响。这种周周期性会影响现行考核分析指标结果的正确性或正确程度。下面以晋城在线2005年11月和10月的点击次数对比分析为例,来说明这种影响的显著及剔除这种影响的方法:该网站11、10月的点击次数分别为95581509和98024557次,则:1、不考虑周周期性的影响。则11月的日均点击次数为3186050次,10月为3162082次。比较可知,11月的业绩高于10月,因为11月的日均点击次数上升了23968次。但这只是假象。2、考虑周周期性的影响。注意到,除4个整周外,10月余周一、六、日3天,11月余周二、三2天。我们已知晋城在线的点击次数明显地存在周周期性,周六、日在低点,周二、三在高点,所以10月的点击次数合计明显受低点影响,而11月则受高点影响。要剔除这种影响,方法是:忽略非整周数据中的周周期性数据,而保留其中的非周周期性数据(避免将非整周数据中的非周周期性数据也一同忽略掉了),然后将保留的数据并入4周数据中按4周计算日均点击次数。其中,某天(例如周六)的点击次数周周期性数据,就是各周该天点击次数的期望值(平均值)。这时,11月的日均点击次数为3168104次,10月为3162529次。比较可知,...