奥搜科技——搜索引擎的讨论与实现开发时间:2024 年 4 月目录目录 1摘要 3第一章引言 4第二章搜索引擎的结构 52
1 系统概述 52
2 搜索引擎的构成 52
1 网络机器人 52
2 索引与搜索 52
3 Web 服务器 62
3 搜索引擎的主要指标与分析 62
4 小节 6第三章网络机器人 73
1 什么是网络机器人 73
2 网络机器人的结构分析 73
1 如何解析 HTML73
2 Spider 程序结构 83
3 如何构造 Spider 程序 93
4 如何提高程序性能 113
5 网络机器人的代码分析 123
3 小节 14第四章基于 LUCENE 的索引与搜索 154
1 什么是 LUCENE 全文检索 154
2 LUCENE 的原理分析 154
1 全文检索的实现机制 154
2 Lucene 的索引效率 154
3 中文切分词机制 174
3 LUCENE 与 SPIDER 的结合 184
4 小节 21第五章基于 TOMCAT 的 WEB 服务器 225
1 什么是基于 TOMCAT 的 WEB 服务器 225
2 用户接口设计 225
1 客户端设计 225
2 服务端设计 235
3 在 TOMCAT 上部署项目 255
4 小节 25第六章搜索引擎策略 266
1 简介 266
2 面对主题的搜索策略 266
1 导向词 266
3 权威网页和中心网页 276
3 小节 27参考文献 28摘要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情
建立搜索引擎就是解决这个问题的最好方法
本文首先详细介绍了基于英特网的搜索引擎的系统结构然后从网络机器人、索引引擎、Web 服务器三个方面进行详细的说明
为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜