山东建筑大学课 程 设 计 成 果 报 告题 目: 基于的网络爬虫设计课 程: 计算机网络院 (部): 管理工程学院专 业: 信息管理与信息系统班 级:学生姓名:学 号:指导老师:完成日期: 目 录 设计目的 设计任务内容 网络爬虫程序总体设计 网络爬虫程序详细设计 设计环境和目标分析 设计环境目标分析 爬虫运行流程分析控制模块详细设计 爬虫模块详细设计 管理器设计 网页下载器设计网页解析器设计数据输出器详细设计 调试与测试调试过程中遇到的问题测试数据及结果显示 课程设计心得与思想到 参考文献 附录 网络爬虫程序设计代码 附录 网络爬虫爬取的数据文档 设计目的本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习
本课程设计的目的和任务:.巩固和加深学生对计算机网络基本知识的理解和掌握
.培育学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力
.提高学生进行技术汇总报告和撰写说明书的能力
设计任务内容网络爬虫是从中发现,下载以及存储内容,是搜索引擎的核心部分
传统爬虫从一个或若干初始网页的开始,获得初始网页上的,在抓取网页的过程中,不断从当前页面上抽取新的放入队列,直到满足系统的一定停止条件
参照开放源码分析网络爬虫实现方法,给出设计技术指导文件,画出设计流程图
选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化
给出软件测试结果
网络爬虫程序总体设计在本爬虫程序中共有三个模块:1、爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况2、爬虫模块:包含三个小模块,管理器、网页下载器、网页解析器
(1)管理器:对需要爬取的和已经爬取过的进行管理,可以从管理器中取出一个待爬取的,传递给网页下载器
(2)网页下载器:网页下载器将指定的网页下载下来,