电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》_第1页
1/10
山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》_第2页
2/10
山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》_第3页
3/10
山东建筑大学课 程 设 计 成 果 报 告题 目: 基于的网络爬虫设计课 程: 计算机网络院 (部): 管理工程学院专 业: 信息管理与信息系统班 级:学生姓名:学 号:指导老师:完成日期: 目 录 设计目的 设计任务内容 网络爬虫程序总体设计 网络爬虫程序详细设计 设计环境和目标分析 设计环境目标分析 爬虫运行流程分析控制模块详细设计 爬虫模块详细设计 管理器设计 网页下载器设计网页解析器设计数据输出器详细设计 调试与测试调试过程中遇到的问题测试数据及结果显示 课程设计心得与思想到 参考文献 附录 网络爬虫程序设计代码 附录 网络爬虫爬取的数据文档 设计目的本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务:.巩固和加深学生对计算机网络基本知识的理解和掌握。.培育学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力。.提高学生进行技术汇总报告和撰写说明书的能力。 设计任务内容网络爬虫是从中发现,下载以及存储内容,是搜索引擎的核心部分。传统爬虫从一个或若干初始网页的开始,获得初始网页上的,在抓取网页的过程中,不断从当前页面上抽取新的放入队列,直到满足系统的一定停止条件。参照开放源码分析网络爬虫实现方法,给出设计技术指导文件,画出设计流程图。选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。 网络爬虫程序总体设计在本爬虫程序中共有三个模块:1、爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况2、爬虫模块:包含三个小模块,管理器、网页下载器、网页解析器。(1)管理器:对需要爬取的和已经爬取过的进行管理,可以从管理器中取出一个待爬取的,传递给网页下载器.(2)网页下载器:网页下载器将指定的网页下载下来,存储成一个字符串,传递给网页解析器.(3)网页解析器:网页解析器解析传递的字符串,解析器不仅可以解析出需要爬取的数据,而且还可以解析出每一个网页指向其他网页的,这些被解析出来会补充进管理器、数据输出模块:存储爬取的数据 网络爬虫程序详细设计 设计环境和目标分析 设计环境:版本:目标分析目标:从百度词条开始,以广度优先的方式,爬取相关联的若干词条网页的标题和简介()初始:"”()词条页面格式:(3)数据格式:标题——<...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部