电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

搜索引擎原理及存在问题VIP免费

搜索引擎原理及存在问题_第1页
1/4
搜索引擎原理及存在问题_第2页
2/4
搜索引擎原理及存在问题_第3页
3/4
图书情报论坛2006年第4期(总第72期)图书情报论坛2006年第4期(总第72期)·佘正平文摘搜索引擎是一个集多种技术于一体的综合性系统。从检索方式将搜索引擎分为独立型搜索引擎和元搜索引擎,分别阐述了其各自的工作原理及它们存在的问题,指出了未来搜索引擎的发展趋势将以用户为中心,提供更加个性化的用户服务。关键词搜索引擎独立型搜索引擎元搜索引擎信息检索1引言网络信息的飞速增长极大地改变了人们获取信息的方式,面对浩如烟海的网络信息,如何才能迅速、方便地获取有效信息,日益成为人们关心的问题,搜索引擎的出现极大地缓解了这一矛盾。搜索引擎是一种应用在Web上的软件系统,它以一定的策略在Web上搜集和发现信息,并对信息进行分析、提取、组织等处理后形成供检索用的数据库。目前,各类搜索引擎层出不穷,且不断地完善发展。了解和掌握搜索引擎最基本的原理及存在的问题,不仅可为网络检索工具的开发设计,提供有益的参考意见,而且可为网络用户利用好搜索引擎提供良好的帮助。2搜索引擎的工作原理1990年加拿大麦吉尔大学计算机学院的师生开发了一个软件Archie,提供查找分布在各个FTP主机中文件的服务,该软件被公认为现代搜索引擎的鼻祖。由此以后,各种搜索引擎应运而生,比较著名的Google、Yahoo!、Lycos、Overture、Metacrawler、百度、搜狐、新浪、网易、天网、万纬、搜星等。根据技术原理,就检索方式而言,搜索引擎可分为独立型搜索引擎和元搜索引擎。2.1独立型搜索引擎独立型搜索引擎(singlesearchengine)又称为单一搜索引擎,其显著特点是,都有一个与数据库绑在一起的检索系统,有一个自动检索程序经常搜集Internet的内容,并将找到的信息资源送回集中管理的数据库。独立型搜索引擎系统一般由三部分构成:信息搜集模块、分析索引模块和检索服务模块。信息搜集模块采用一种像真人一样可以浏览网页的Robot程序,这类程序能自动地在网上漫游,从一个或一组URL开始访问,然后下载相应的网页,抽取页面中的链接,按照某种算法决定下一步要访问的URL地址,常用的算法有广度优先和深度优先。Robot程序不停地重复这个访问过程,搜集信息资料,存储到本地数据库,直至再没有满足条件的新的URL地址或超出了某些条件限制。有些搜索引擎采集网页的策略是无限制采集,比如AltaVista、FAST、Google都属于无限制地采集。有些则是抽样采集,即有选择性地采集网页信息,例如:Excite、Go(InfoSeek)、Loycos就属于这一类。搜索引擎除了采用主动搜寻方式外,还可接受用户网站自行向搜索引擎提交的URL,将信息加入到搜索引擎数据库中。因此,信息搜集模块的主要功能是完成信息掘取工作,以期为将来的检索服务提供数据。分析索引模块将Robot程序采集的信息进行比较分析,删除那些内容基本相似的转载网页,以及未加任何修改,内容完全相同的镜像网页,然后,对留存的网页信息,剔除HTML等的标志符号,提取出代搜索引擎原理及存在问题20佘正平:搜索引擎原理及存在问题表网页源文件内容特征的关键词,汇集成索引数据库,并随时顺着链接跟踪网上新加入的主页,为其建立索引。索引数据库就是一个很大的查询表,主要的字段有:网站的名称、标题、URL地址、摘要等。各搜索引擎标引方法因系统不同而存有差异,因此,使得相同的检索请求在不同的搜索引擎中会得出差别很大的检索结果,但大多数均采取自动标引技术。有的是对Web页面内容进行全文索引,即对Web页中每一个单词进行标引。有的从文章中按某些分类或特征对信息进行抽取。例如:Lycos仅标引文件名、文件标题和全文前20行的内容。而Al-taVista的索引处理则最为全面,不仅对网页的所有文本、图像及链接等进行索引,而且还记录单词之间的相对位置。一般来说,标引的索引词越多,检索的全面性越高,分析索引模块是搜索引擎提供检索服务的基础。检索服务模块主要分为四个内容:第一,检索界面,接受用户提交的检索要求。目前,搜索引擎几乎都提供基本检索和高级检索两种界面,供用户选择使用。第二,检索策略,将用户提交的检索要求编制成计算机可执行的规范化检索式。常用的信息检索模型有:布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型。大多数系统是把以上各种模型综合应用,以期达到最佳的检索效果。然...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

搜索引擎原理及存在问题

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部