搜索引擎的信息覆盖率评测模型研究孟涛09808049指导教师:李晓明教授2002年6月引言互联网信息资源数量的指数级增长、网络信息博物馆对网页资源的要求需要一套有效的办法评测搜集系统的搜集性能,本文的工作由此展开网页搜集的不完全性WWW有向图结构结构本身所致(入度为0或不存在路径)优先排序、搜集系统资源所限导致不断出现的新网页无法搜集三类重要的信息覆盖率数量覆盖率质量覆盖率可视信息覆盖率模型建立覆盖率=搜集网页数/实际WWW网页数覆盖率=样本覆盖数/样本容量模型图示数量覆盖率:随机IP法模型修正与误差分析结果:5
72%缺点:无法区别该IP地址的网站大小,存在大量的无效IP地址改进方法:利用链接关系作链接扩展,减小上述的不利影响修正结果:23
5%数量覆盖率:广度优先法试验结果与误差分析局部角度,利用网页间链接关系结果:选取5组样本求覆盖率均值41
6%误差修正:大约10%的网页无法通过链接到达,对结果乘以90%处理得37
4%误差修正原理网页重要性评价因素网页URL属性:域名长短,目录深度网页作为有向图的节点:链接表示着认可度的传递,通常入度越大越重要网页本身的内容:与查询用户宽主题查询词的匹配程度两类重要的权值算法之一:PageRank学术论文引用统计原理在WWW上的扩展PR(A)=niTiCTiPR1)(/)(两类重要的权值算法之二:HITS(Hyperlink-InducedTopicSearch)权威型权值目录型权值A(p)=H(p)=miFiH1)(niTiA1)(质量覆盖率:广度优先法PageRank算法需要与WWW相近的链接结构,采用广度优先遍历取样初始样本对得到的数十万网页用PageRank算法计算权值,得到前面约5%的网页作为重要网页样本选取5组样本,计算均值得到结果为47%对其中