第10章发现与搜索引擎技术学习任务WEB搜索引擎工作原理物联网搜索引擎服务发现技术Clicktoaddtitleinhere123本章主要涉及:本章主要涉及:10
1搜索引擎技术概述•搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统
1搜索引擎的发展•1990年,加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生想到了开发一个可以用文件名查找文件的系统,开发出Archie
•当时,万维网(WorldWideWeb)还没有出现,人们通过FTP来共享交流资源
•Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件
用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件
1搜索引擎的发展•虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务
•所以,Archie被公认为现代搜索引擎的鼻祖
•由于Archie深受欢迎,受其启发,1993年又开发了一个Gopher搜索工具
2搜索引擎分类(1)全文索引•全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索
•它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果10
2搜索引擎分类根据搜索结果来源的不同,全文搜索引擎可分为两类:•一类拥有自己的检索程序(Indexer),俗称“爬虫”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;•另一