山东建筑大学课 程 设 计 成 果 报 告题 目: 基于 Python 的网络爬虫设计课 程: 计算机网络 A院 (部): 管理工程学院专 业: 信息管理与信息系统班 级:学生姓名:学 号:指导老师:完成日期:目 录1 设计目的 12 设计任务内容 0 3 网络爬虫程序 总体 设计 0 4 网络爬虫程序 详细 设计 0 4.1 设计环境和目标分析 0 4. 1 。 1 设计环境 0 4 。 1 . 2 目标分析 0 4 。 2 爬虫运行流程分析 1 4. 3 控制模块详细设计 1 4.3 爬虫模块详细设计 1 4 。 3 。 1 URL 管理器设计 1 4.3 。 2 网页下载器设计 2 4 。 3. 3 网页解析器设计 2 4 。 4 数据输出器详细设计 2 5 调试与测试 2 5 。 1 调试过程中遇到的问题 2 5 。 2 测试数据及结果显示 3 6 课程设计心得与体会 3 7 参考文献 3 8 附录 1 网络爬虫程序设计代码 3 9 附录 2 网络爬虫爬取的数据文档 4 1 设计目的本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习.本课程设计的目的和任务:1.巩固和加深学生对计算机网络基本知识的理解和掌握;2.培育学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力;3.提高学生进行技术总结和撰写说明书的能力.2 设计任务内容网络爬虫是从 web 中发现,下载以及存储内容,是搜索引擎的核心部分.传统爬虫从一个或若干初始网页的 URL 开始,获得初始网页上的 URL,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足系统的一定停止条件。参照开放源码分析网络爬虫实现方法,给出设计方案,画出设计流程图。选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。3 网络爬虫程序总体设计在本爬虫程序中共有三个模块:1、爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况2、爬虫模块:包含三个小模块,URL 管理器、网页下载器、网页解析器。(1)URL 管理器:对需要爬取的 URL 和已经爬取过的 URL 进行管理,可以从 URL管理器中取出一个待爬取的 URL,传递给网页下载器.(2)网页下载器:网页下载器将 URL 指定的网页下载下来,存储成一个字符串,传递给网页解析器。(3)网页解析器:网页解析器解析传递的字符串,解析器不仅可以解...