1、 阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎。 简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。 百度的优点: 1、对于中国人的阅读和浏览更为熟悉,服务更加本土化 2、提供 RSS 新闻订阅服务 3、提供历史和各省市新闻查阅 百度的缺点: 1、页面布局不合理 页面没有充分利用 2、更新时间迅速的优势没有充分发挥 3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威; 4、搜索结果中广告、垃圾网站和死链比较多 Go o gle 的优点: 1、容量大和范围广:其数据库如今是最大的,包括了 PDF、DOC、PS 及其他许多文件类型。 2、易用性较强。 3、根据站点的链接数和权威性进行相关性排序。 4、网页缓存归档,浏览过的网页被编入索引。 Go o gle 的缺点: 1、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索。 2、链接搜索必须准确,而且不完整。 3、只能把网页的前 101KB 和 PDF 的大约前 120KB 编入索引。 可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体。 4、死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。 雅虎的优点: 1、搜索引擎数据库庞大而且新颖。 2、包括页面的缓存拷贝。 3、也包括指向雅虎目录的链接。 4、支持全部的布尔逻辑检索。 雅虎的缺点: 1、缺少某些高级的搜索特性,譬如截词搜索。 2、只能把网页的前 500KB(不过仍超过 Google 的 101KB)编入索引。 3、连接搜索需要加入 http://。包括有些付费才能加入的站点。 4、死链率较高 而且缺少一些应有的高级搜索功能。 5、搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了,搜索的易用性稍差。 1“百度”全球最大的中文搜索引擎,也是人们最常用的搜索引擎之一,常用于搜索网页、图片和 mp3。搜索结果中广告、垃圾网站和死链比较多。 2、“Google”是功能强大,易用性最强...