奥搜科技——搜索引擎的讨论与实现开发时间:2024 年 4 月目录目录 1摘要 3第一章引言 4第二章搜索引擎的结构 52.1 系统概述 52.2 搜索引擎的构成 52.2.1 网络机器人 52.2.2 索引与搜索 52.2.3 Web 服务器 62.3 搜索引擎的主要指标与分析 62.4 小节 6第三章网络机器人 73.1 什么是网络机器人 73.2 网络机器人的结构分析 73.2.1 如何解析 HTML73.2.2 Spider 程序结构 83.2.3 如何构造 Spider 程序 93.2.4 如何提高程序性能 113.2.5 网络机器人的代码分析 123.3 小节 14第四章基于 LUCENE 的索引与搜索 154.1 什么是 LUCENE 全文检索 154.2 LUCENE 的原理分析 154.2.1 全文检索的实现机制 154.2.2 Lucene 的索引效率 154.2.3 中文切分词机制 174.3 LUCENE 与 SPIDER 的结合 184.4 小节 21第五章基于 TOMCAT 的 WEB 服务器 225.1 什么是基于 TOMCAT 的 WEB 服务器 225.2 用户接口设计 225.3.1 客户端设计 225.3.2 服务端设计 235.3 在 TOMCAT 上部署项目 255.4 小节 25第六章搜索引擎策略 266.1 简介 266.2 面对主题的搜索策略 266.2.1 导向词 266.2.3 权威网页和中心网页 276.3 小节 27参考文献 28摘要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构然后从网络机器人、索引引擎、Web 服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。新闻搜索引擎是从指定的 Web 页面中根据超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过 Web 服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。AbstractThe resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, then gives a minute explanation form Spider search, engine an...