精品文档---下载后可任意编辑一、实验目的讨论并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank 和 MapReduce 算法,了解它们的基本实现原理;运用所学 SEO 技术对网页进行优化。二、实验内容1. 讨论常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;2. 讨论至少两种中文分词算法,了解其实现原理;3. 讨论至少两种网页正文提取算法,了解其实现原理;4. 讨论至少两种网页去重算法,了解其实现原理;5. 讨论 Google 的 PageRank 和 MapReduce 算法,了解它们的实现原理;6. 使用所学的 SEO 技术,对实验二所设计的网站静态首页实施 SEO,在实施过程中需采纳如下技术:(1) 网页标题(title)的优化;(2)选取合适的关键词并对关键词进行优化;(3)元标签的优化;(4) 网站结构和 URL 的优化;(5)创建 robots.txt 文件,禁止蜘蛛抓取网站后台页面;(6)网页内部链接的优化;(7)Heading 标签的优化;(8)图片优化;(9) 网页减肥技术。7. 使用 C++、C#和 Java 等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页 URL 之后能够实现网页搜索,输出包含关键词的网页的 URL 和网页标题。【注:实验 7 为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】三、实验要求1. 讨论几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;2. 讨论两种中文分词算法,填写相应的表格,表格必须填写完整;3. 讨论两种网页正文提取算法,填写相应的表格,表格必须填写完整;4. 讨论两种网页去重算法,填写相应的表格,表格必须填写完整;5. 讨论 PageRank 算法和 MapReduce 算法,填写相应的表格,表格必须填写完整;6. 提供实施 SEO 之后的网站静态首页界面和 HTML 代码,尽量多地使用所学 SEO 技术;7. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1. 通过使用搜索引擎并查阅相关资料,讨论并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;2. 通过使用搜索引擎并查阅相关资料,讨论并整理两种中文...