WebWeb搜索引擎搜索引擎概述、体系结构、排序算法搜索搜索WebWeb三种形式–Specificqueriesencyclopaedia,librariesExploithyperlinkstructure–BroadquerieswebdirectoriesWebdirectories:classifywebdocumentsbysubjects–VaguequeriessearchenginesindexportionsofwebWebWeb信息的特点信息的特点Web本身:–Largevolume:8亿个页面(1999),每两年翻番
–Distributed:分布在280万个WebServer上
–Dynamic:created,changed,moved,deleted–No-structure、heterogeneitiy:pictures、audio…–Varietyoflanguage:morethan100–Duplication:nearly30%–Highlinkage:averagelymorethan8linkstoothers
用户–Ill-formedqueries:未经专门培训,查询请求短、不精确–Widevarianceinusers:每个用户在needs,expectations,knowledge等各方面均不同
–Specificbehavior:85%只看第一页、78%nevermodifytheirveryfirstquery
99%的信息对99%的用户是没用的
迫切需要新一代的信息挖掘技术WEBINFORMATIONRETRIEVAL
WebWeb信息检索系统的分类信息检索系统的分类Web搜索引擎元搜索引擎信息检索agent目录用户TheTaxonomyofWebInformationRetrievalSys