WebWeb搜索引擎搜索引擎概述、体系结构、排序算法搜索搜索WebWeb三种形式–Specificqueriesencyclopaedia,librariesExploithyperlinkstructure–BroadquerieswebdirectoriesWebdirectories:classifywebdocumentsbysubjects–VaguequeriessearchenginesindexportionsofwebWebWeb信息的特点信息的特点Web本身:–Largevolume:8亿个页面(1999),每两年翻番。–Distributed:分布在280万个WebServer上。–Dynamic:created,changed,moved,deleted–No-structure、heterogeneitiy:pictures、audio…–Varietyoflanguage:morethan100–Duplication:nearly30%–Highlinkage:averagelymorethan8linkstoothers.用户–Ill-formedqueries:未经专门培训,查询请求短、不精确–Widevarianceinusers:每个用户在needs,expectations,knowledge等各方面均不同。–Specificbehavior:85%只看第一页、78%nevermodifytheirveryfirstquery.99%的信息对99%的用户是没用的。迫切需要新一代的信息挖掘技术WEBINFORMATIONRETRIEVAL!!!WebWeb信息检索系统的分类信息检索系统的分类Web搜索引擎元搜索引擎信息检索agent目录用户TheTaxonomyofWebInformationRetrievalSystemsWebWeb信息检索系统的分类信息检索系统的分类Web信息检索系统作为用户层和Web信息层之间的中间层,可以进一步地划分为三个层次,包括:搜索引擎与目录、元搜索引擎、信息检索agent。在层次分类中,每一层都建立在其下各层的基础之上,并向其上各层提供信息检索服务。这些层次分类构成了Web信息检索中的一条生产/消费链:Web信息→搜索引擎与目录→元搜索引擎→信息检索agent→用户。下面,我们对各个层次的特点、设计思想及相互关系分别加以考察。搜索引擎与目录搜索引擎与目录第一个搜索引擎:WWWW(WorldWideWebWorm)[McBryan94]:Colorado大学搜索引擎的基本设计思想是:–使用robot遍历Web,将Web上分布的信息下载到本地文档库–对文档内容进行自动分析并建立索引–检查索引找出与用户查询相匹配的文档(或链接)最为著名的搜索引擎有Google,NorthernLight,AltaVista,Infoseek等。其中,NorthernLight和AltaVista所索引的Web页面都已经超过了100,000,000。目录目录目录,例如Yahoo,OpenDirectory,Snap等,与搜索引擎的工作方式不同由人工收集或者由Web站点的作者主动提交文档人工对Web站点和文档进行评价、分类并给出简要描述按照主题分类并以树状的形式对Web信息资源进行组织(浏览)对Web信息资源的分类以及描述信息建立索引(检索)–目前Yahoo包含有指向500,000个站点的链接,分布在25,000个分类中。目录目录搜索引擎与目录搜索引擎与目录搜索引擎和目录这两种Web信息检索系统各有所长。–通常,由于搜索引擎具有庞大的全文索引数据库,因此适用于检索难以查找的信息或者一些比较模糊的主题;–而目录有助于逐步缩小主题或者查找某个主题的常见的、质量较高的信息。由于这两种系统彼此互补,因此将两者特点结合起来的一些混合系统也开始出现LookSmart等。–现有的一些著名的搜索引擎和目录也呈现出逐渐融合的趋势。例如,Yahoo在目录检索服务的基础之上,已经开始使用Inktomi的Web全文索引数据库提供与搜索引擎类似的Web信息全文检索服务。元搜索引擎元搜索引擎用户经常需要检索多个系统以改善检索的效果。各个搜索引擎的用户接口是异构的,有其特定且复杂的界面和查询语法,这给用户同时使用多个系统带来了不便。一些研究人员针对这种状况而开发了元搜索引擎,其中比较著名的有MetaCrawler,SavvySearch等。元元搜索搜索第一步:Webserverthatsendsqueryto–Severalsearchengines–Webdirectories–Databases第二步:Collectresults第三步:Unifythem(Datafusion)Aim:bettercoverage关键问题:–Translationofquery–Uniformresult(fusionrankings,e,g,pagesretrievedbyseveralengines)–Wrappers元搜索引擎元搜索引擎主要工作原理:–任务分解:元搜索引擎首先对用户的查询请求进行预处理,分别转换为若干个底层搜索引擎能处理的格式,并将其发送给各个搜...