下载后可任意编辑网页正文提取系统的详细设计与实现毕业设计12024 年 4 月 19 日下载后可任意编辑目录摘 要...................................................................................................- 3 -1.绪论...................................................................................................- 4 -1.1 课题背景.....................................................................................- 4 -1.1.1 搜索引擎的历史...................................................................- 4 -1.1.2 搜索引擎的进展方向..........................................................- 5 -1.1.3 搜索引擎的最新技术进展..................................................- 6 -1.2 课题来源、目的和意义...........................................................- 8 -1.3 主要讨论内容............................................................................- 9 -2.网页正文提取系统的详细设计与实现.......................................- 10 -12024 年 4 月 19 日下载后可任意编辑2.1 基本原理..................................................................................- 10 -2.2 网页预处理系统....................................................................- 11 -2.2.1 HTML 标签法律规范化....................................................- 11 -2.2.1建立网页的 DOM 树结构.............................................- 14 -2.3 核心算法基本思想...............................................................- 15 -2.4 本章小结................................................................................- 19 -结 论.................................................................................................- 22 -参考文献...........................................................................................- 23 -22024 年 4 月 19 日下载后可任意编辑摘 要随着互联网信息技术的不断进展,互联网的信息量也日益膨胀。近年来,全球因特网上的信息数据正以爆炸式的速度在增长。据 IDC报告称,从现在到 ,估计信息量将以每年 57%的...