文献与信息检索李树青第二章:搜索引擎的检索方法•工欲善其事,必先利其器两类搜索引擎的检索方法•基于关键词的基本检索方法•基于Web目录的分类检索方法1基于关键词的基本检索方法•布尔检索•词组检索•模糊检索•字段检索1.1布尔检索•通过布尔检索,用户可以告诉搜索引擎希望找到什么、不希望找到什么等等一个简单的例子——是Google太谦虚?•检索关于“搜索引擎”的相关网页信息•第一条非广告的结果只是百度百科中的搜索引擎条目说明,连百度搜索引擎和必应搜索引擎都没有排在前几条,甚至连Google自己也没有什么原因?•仔细思考上述问题,造成这种现象的主要原因在于用户没有准确的表达自己的需求,究竟是要找著名的搜索引擎网站,还是要找介绍搜索引擎的网页?AND检索•此时所使用的方法就是布尔检索•一种被称为“AND”的布尔检索•“AND”字面意思是“并且”的意思,如“搜索引擎介绍”的最终检索结果是含有“搜索引擎”和“介绍”的相关网页注意要点之一:•为了清楚表明用户的检索需求,采用多个检索关键词十分必要,但是选择关键词需要技巧和经验,有时可能需要多次尝试•比如对于检索“搜索引擎首页”的练习而言,如果采用“搜索引擎站点”来检索,效果就不理想•但是这种现象可能会因时因地而变化注意要点之二•在大多数搜索引擎中,“AND”是通过空格来表示的•使用诸如“搜索引擎介绍”来检索,仍然还是“搜索引擎介绍”•自动分词广告中的断句分别如下•我知道,你不知道,我知道,你不知道我知道,你不知道•我知道你,不知道我,知道你不知道我,知道你不知道•我,知道你不知道我知道,你不知道我知道你不知道注意要点之三•由于搜索引擎经常更新网页的索引信息,而且不同的搜索引擎都会采用不同的相关度排序算法,所以实际的检索结果可能会因时因地而变化注意要点之四•“AND”检索其实是一种缩小检索范围的查询方法,该方法可以提高查准率,当然在减少返回结果的同时,一般也会不可避免的丢失一些其实有价值的结果,因此会降低查全率再看一个例子:•检索银杏果的相关内容OR检索•增加无关网页被命中的概率,特别是在选择的关键词不甚合理时尤为如此•增加查全率但会降低查准率•单纯看搜索引擎返回结果数量并不准确,这种数量估算出来的,并非实际准确相关结果数量背景知识很重要•增加关键词需要用户了解相关背景知识,否则如何知道“银杏果”也可以称之为“白果”呢?•特别对于较为专业的知识而言,只有熟悉该领域知识的用户才能更容易找到更多的相关检索词再看检索搜索引擎首页的例子•还有很多介绍英文搜索引擎的网页内容没有包含在内!关于OR检索操作符•Google就要求“OR”大写,并且前后空格分隔,还可以“|”来代替“OR”•百度也使用“|”表达OR检索这个符号是键盘“\”的切换字符一个例子:•检索“李四”的相关网页信息注意几个问题:•横线是减号,前面有个空格,后面没有空格,表示“NOT(不)”的意思•减号为英文半角的减号,作为不表示语义概念的布尔操作符,所有的这些布尔操作符号都应该是英文半角符号一个新的检索思路•有时候,我们可能并不十分清楚被检索的内容,很难构造准确的检索关键词,那么我们就可以首先利用一般的关键词来检索,然后对其结果不断的利用“NOT”检索去排除无用信息,间接的找到所需的内容例子:•要检索“财政金融”的相关信息,但是该词语通常都作为学院名称出现,因此排在前面的结果都与学院有关NOT不可轻用•“NOT”检索也有其副作用,毕竟相对于全部网页而言,满足关键词的网页数量一般总是少数,因此直接使用或者过多的使用“NOT”检索不足取,会命中太多结果•很多搜索引擎不允许多次使用NOT,效果不明显,但是对于专业检索系统可以练习:•从sun公司下载了Solaris10后有三个文件,安装不起来,总是提示文件有问题总结•合理选择查询词•和需求最相关关于查询词语选择的其他例子•带有滚动条的swing窗体不能及时显示最新的视图内容总结•合理选择查询词•需要适时调整查询词语的文本内容1.2词组检索一个例子•检索“信息系统管理”相关英文网页信息存在问题•第二条和第三条记录并非命中检索词语,...