《电子商务应用》实验报告项目名称搜索引擎及SEO实验专业班级软件工程1307班学号3901130721姓名谭淇蔚实验成绩:批阅教师:2015年11月24日实验3《搜索引擎及SEO实验》实验学时:2实验地点:X204实验日期:2015年11月24日星期二一、实验目的研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;运用所学SEO技术对网页进行优化。二、实验内容和方法1.研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;2.研究至少两种中文分词算法,了解其实现原理;3.研究至少两种网页正文提取算法,了解其实现原理;4.研究至少两种网页去重算法,了解其实现原理;5.研究Google的PageRank和MapReduce算法,了解它们的实现原理;6.使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:(1)网页标题(title)的优化;(2)选取合适的关键词并对关键词进行优化;(3)元标签的优化;(4)网站结构和URL的优化;(5)创建robots.txt文件,禁止蜘蛛抓取网站后台页面;(6)网页内部链接的优化;(7)Heading标签的优化;(8)图片优化;(9)网页减肥技术。7.使用C++、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】三、实验要求1.研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;2.研究两种中文分词算法,填写相应的表格,表格必须填写完整;3.研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;4.研究两种网页去重算法,填写相应的表格,表格必须填写完整;5.研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整;6.提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;7.严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;8.使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1.通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;2.通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格;3.通过使用搜索引擎并查阅相关资料,研究并整理两种网页正文提取算法的基本原理,填写相应的表格;4.通过使用搜索引擎并查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格;5.通过使用搜索引擎并查阅相关资料,研究并整理PageRank算法和MapReduce算法的基本原理,填写相应的表格;6.对实验二所设计的网站静态首页实施SEO;7.使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。五、实验结果1.研究几种常用的网络蜘蛛爬行策略并填写如下表格:策略名称基本原理参考资料深度优先策略广度优先策略网页选择策略重访策略并行策略注:参考资料格式如下:[1]developerWorks中国:Java设计模式.http://www.ibm.com/developerworks/cn/java/design/.[2]阎宏.Java与模式.北京:电子工业出版社,2004.[3]于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计.计算机应用,2005,25(4).解:策略名称基本原理参考资料深度优先策略在深度优先搜索中,针对最新发现的网页源顶点P,如果它还有以此为起点而尚未搜索到的路径,则沿此路径继续搜素下去。反之,如果当顶点P的所有路径均已经被搜索过,则回溯到初始点。这一搜索过程将一直持续到已发现的从源顶点P可达到的所有顶点为止。但是如果仍然存在未被发现的等等P‘,则继续选择其中一个作为源顶点并重复以上过程,最终实现所有顶点都被遍历。[1]李耀华,杨海燕.论网络爬虫搜索策略[J].山西广播电视大学学报,2013,02:48-50.广度优先策略广度优先遍...