1、 阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎
简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成
抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据
百度的优点: 1、对于中国人的阅读和浏览更为熟悉,服务更加本土化 2、提供 RSS 新闻订阅服务 3、提供历史和各省市新闻查阅 百度的缺点: 1、页面布局不合理 页面没有充分利用 2、更新时间迅速的优势没有充分发挥 3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威; 4、搜索结果中广告、垃圾网站和死链比较多 Go o gle 的优点: 1、容量大和范围广:其数据库如今是最大的,包括了 PDF、DOC、PS 及其他许多文件类型
2、易用性较强
3、根据站点的链接数和权威性进行相关性排序
4、网页缓存归档,浏览过的网页被编入索引
Go o gle 的缺点: 1、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索
2、链接搜索必须准确,而且不完整
3、只能把网页的前 101KB 和 PDF 的大约前 120KB 编入索引
可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体
4、死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接
雅虎的优点: 1、搜索引擎数据库庞大而且新颖
2、包括页面的缓存拷贝
3、也包括指向雅虎目录的链接
4、支持全部的布尔逻辑检索
雅虎的缺点: 1、缺少某些高级