类别中小学信息技术编号校园网搜索引擎的分析与设计内容摘要:随着Internet的迅速发展,校园网也不断发展,校园网中的信息量不断增大,我们在查找信息时也因其信息资源量大而不能很快找到所需的信息,所以一种基于校园网的搜索引擎也就应运而生了。而网络蜘蛛技术是搜索引擎的关键。本文围绕这一技术而展开。首先从搜索引擎的种类和原理整体分析了搜索引擎,然后研究网络蜘蛛这一技术,从网络蜘蛛技术的原理、一般系统结构、关键技术、技术实现等几个方面来分别分析、为设计校园搜索引擎作最基本的工作。选择.NET为设计平台,以C#语言编写程序。关键词:搜索引擎;蜘蛛;超链接;爬取;URL1.引言随着Internet的快速发展,网络正在深刻地影响着我们的生活。而在网上发展最为迅速的WWW(WorldWideWeb)技术,以其直观、简单、高效的使用方式和丰富的表达能力,已逐渐成为Internet上最重要的信息发布和交互方式。Internet上的数十亿的网页数量,这给人们带来了前所未有的丰富的信息资源。然而,Web信息的急速增长,在给人们提供丰富信息的同时,也存在信息量过大而导致人们不能很快找到自己所需信息的问题。因此,随之而来的就出现了搜索引擎,但搜索引擎在如此快速的Internet发展之下也面临很多挑战[2]:(1)Web上的信息种类繁多、丰富多彩使得搜索引擎能够检索的范围越来越小。(2)Web是一个动态增长的信息源,随时会发生各种变化。(3)搜索引擎面对的用户是形形色色的,这些用户的信息需求、知识背景、兴趣各不相同。对于目前搜索引擎存在的各种不足及面临解决的诸多难题,如:如何跟上Internet的发展速度,如何才能提供更加方便易用的搜索服务,如何才能为用户提供更加精确的查询结果等等,都是未来很长一段时间内搜索引擎的发展方向。总的看来,其未来发展的趋势将主要体现在以下几个方面[1,4,29]:(1)专业化搜索:搜索引擎的专业化是为了专门收录某一行业、某一主题和某一地区的信息而建立,缩小了搜索范围,非常实用,如企业查询、行业信息查询等等。这种专业化的搜索引擎需要对专业知识专而精,并要求内容全面。(2)个性化搜索:提高搜索精确度的另一个途径是提供个性化搜索,也就是将搜索建立在个性化的搜索环境之下,通过对用户的不断了解、分析,使得个性化搜索更符合每个用户的需求。2.搜索引擎的分类及工作原理2.1搜索引擎的分类当前搜索引擎的分类方法有很多,因此分类出来的搜索引擎也很多。通常根据搜索引擎信息收集方法和工作方式的不同,现有的搜索引擎有以下三类:1.机器人搜索引擎;2.目录式搜索引擎;3.元搜索引擎[3,6,21]。2.1.1机器人搜索引擎机器人搜索引擎它是将Web视作一个大型的全文数据库,利用几个关键词来表示一个网页,通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,返回查询结果一般包括Web页面标题和URL等信息,然后按一定的排列顺序将结果返回给用户,是真正的搜索引擎。国外具有代表性的有Google、AllTheWeb等,国内著名的有百度(Baidu)。这类搜索引擎的优点是信息量大,无需人工干预,但由于关键词是直接从原文中抽取的,每个人对于一个主题的描述存在着很大的随意性,而且关键词之间又是互相独立的,所以返回查询结果往往缺乏准确性。机器人搜索引擎的自动信息搜集功能分两种:一种是拥有自己的搜索程序,俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,定期对一定IP地址范围的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库,搜索结果直接从自身的数据库中调用;另一种是由网站拥有者主动向搜索引擎网站提交网址。2.1.2目录式搜索引擎目录式搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工编辑摘录核心信息,并将信息置于事先确定的分类框架中。由于目录索引只是一个按目录分类的网站链接列表,因此目录式搜索引擎虽然有搜索功能,但严格意义上不能称为搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。它的优点在于:目录清晰、内容较...