题目:基于jsp的搜索引擎摘要随着互联网的不断发展和日益普及,网上的信息量在迅速地增长,在2004年4月,全球Web页面的数目已经超过40亿,中国的网页数估计也超过了3亿。目前人们从网上获得信息的主要工具是浏览器,搜索引擎在网络中占有举足轻重的地位,本文将在此深入的对搜索引擎做一个研究与阐述。并且详细介绍了基于因特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个简单的搜索引擎Damon。关键词:1、jsp搜索引擎2、spider3、Lucene1目录一、前言.................................................6二、搜索引擎的历史渊源...................................7三、搜索引擎基本结构.....................................9(一)网络机器人....................................9(二)索引与搜索....................................9(三)Web服务器....................................10(四)搜索引擎的主要指标及分析.....................10四、网络机器人........................................11(一)什么是网络机器人.............................11(二)网络机器人的结构分析.........................11(三)Spider程序结构...............................12(四)如何提高程序性能.............................13五、基于Tomcat的Web服务器jsp搜索引擎程序设计详解.....14(一)开发工具、平台及资源.......................14(二)Lucene开源组件简介...........................14(三)引入基于Tomcat的Web服务器开发设计...........15(四)用户接口设计.................................16(五)机器人的设计分析.............................18(六)关于程序说明.................................23六、在Tomcat上部署项目.................................24七、总结................................................25致谢....................................................26参考文献................................................27一、前言在网络迅速发展的今天,面临非常丰富的网络资源,不论我们是学习、研究、还是工作需要在网络上能查找到相关的资料信息,人们现在对网络的依赖程度越来越高,但是如何有效的搜索信息却是一件困难的事情。但是幸运的是类似于百度、Google这样的搜索网站的出现能帮助我们解决这样的问题,使我们可以在网络中查找自己所需要的信息资源。从理论上讲所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。并且我们在网络中可以找到几乎我们需要的一切的可能的东西,本文从搜索引擎发展历史2开始,然后详细介绍了程序中使用的组件Lucene,重点阐述了全文搜索引擎的基本原理所采用的相关技术,进而引出专题搜索引擎,并且为提高专题性所采取的一些方法。分析了网页文档半结构化的数据特点以及使用自己编写的spider程序从Internet上取回综合的信息经过Lucene处理加入索引文件中,最终用户在客户端输入关键字后实现将与关键字相关信息返回给用户。二、搜索引擎的历史渊源早在Web出现之前,互联网上就已经存在许多让人们共享的信息资源了。那些资源当时主要存在于各种允许匿名访问的FTP站点(anonymousftp),内容以学术技术报告研究性软件居多,它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本(那时还没有HTML)。在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。为了便于人们在分散的FTP资源中找到所需的东西,1990年由蒙特利尔大学学生AlanEmtage发明的Archie。虽然当时WorldWideWeb还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此AlanEmtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。Archie工作原理与现在的搜索引擎已经很接近...