基于 Python 的空气质量数据分析与实践 本篇文章利用了 Python 爬虫技术对空气质量网站的数据进行获取,获取之后把数据生成 CSV 格式的文件,然后再存入数据库方便保存
再从之前 24 小时的 AQI(空气质量指数)的平均值中进行分析,把数据取出来后,对数据进行数据清洗,最后将数据提取出来做可视化的分析
在对数据的获取的过程中,使用了 Python 的 request 去获取 html 的一个文本,然后利用正则表达式 re 库和 beautifulSoup 这两个库去对数据进行筛选,拿到自己需要的一些空气质量的数据,并且同时写入CSV 文件
在对数据进行存储、分类时,利用了 Python 的 sqlalchemy 这个库,对写入 CSV 的数据去存进数据库,更简单直接的保存大群数据,然后再使用 pandas 这个库去读取数据库里面的数据,并且读取的数据可以直接去清洗、分类
在数据可视化的步骤中,则用 matplotlib 和 pyecharts 这两个库去将想要分析的数据进行可视化,绘制成条形图,方便比较各个城市的空气质量差异,将当天空气最好的前十五个城市可视化出来,并且通过 K-means 聚类算法等去分析城市的一些空气质量受到影响的原因,以及对应的治理措施
关键词: Python;爬虫;数据分析;数据库;数据可视化目 录第 1 章 绪 论
1 课题的研究背景及意义
2 互联网数据及其分析的研究现状
3 论文主要研究内容及框架结构
2第 2 章 需求分析