北京理工大学珠海学院 2020 届本科生毕业设计 基于 Elastic Stack 平台的疫情分析系统的设计与实现——数据采集模块基于 Elastic Stack 平台的疫情分析系统的设计与实现——数据获取模块摘 要今年(2 0 2 0 年)的新型冠状病毒在全世界各个国家爆发,由于新冠疫情迅猛发展和巨大影响,给我国各行各业都带来了一个沉痛的打击
在这次疫情中,对病例发现不及时,对疫情扩散速度不明确,是疫情前期防范的一大难题;虚假的自媒体新闻,听信网络谣言,是造成民众恐慌的根源
及时、一致、准确地获取疫情数据信息是布置疫情防控工作基础和前提,是控制疫情蔓延的有力武器
基于疫情的大环境下,构建一个疫情发展与分析的网站,显然是十分必要的
由于现今中国疫情数据的公开透明性,本次毕业设计系统通过收集并存储互联网上的疫情相关数据,并将数据进行处理后可视化展现给用户,让大众能够直观地了解疫情发展情况,以及更加全面地认识防疫信息
俗话说知己知彼,方能百战百胜,用户能够检索谣言信息并查看信息真假,当用户了解了疫情现状,知道了哪些新闻该信,哪些新闻不能信,就能够某种程度上,防止公众过北京理工大学珠海学院 2020 届本科生毕业设计度恐慌导致的社会不和谐
本平台提供真实、实时的疫情信息,展示较为准确的病毒扩散分析,让大众能及时、正确地了解疫情发展状况
本次毕业设计的数据获取模块,主要研究的是目前较为流行的基于 python的爬虫框架 Scrapy
以 scrapy 为爬虫的基础框架,设计并实现一个能够定时采集疫情相关数据的爬虫系统
鉴于需要抓取的网站页面渲染方式不同,这里采用两种不同的抓取策略:对于只有单个页面在客户端渲染不断更新的网站,采用单机爬虫定时采集数据的方式;对于网站更新会产生新的 url,需要处理多个不同页面,数据量比较大的网站则采用分布式爬虫采集数据的方式
关键词:互联网;疫情数据