博主是电子科技大学、信息与通信工程专业、研三在读,硕士在成都待了三年,毕业后即将前往北京字节跳动大数据开发岗位,即将进入人生的另一阶段。
临近毕业,意味着即将告别人生中最后不到三个月的学生生涯。在离开天府之国之前,总想留下点什么,于是产生了本文。
本文是一次爬虫实战,文章主要分析了成都近八年的温度、降雨、空气质量变化趋势。文章主要分为两个部分:
温度、降雨的趋势统计
空气质量的统计
降雨量和温度的统计主要来源于:历史天气查询网站
该网站收录了2011年到现在的历史天气数据
1.url分析
url:https://m.tianqi.com/lishi/chengdu/201904
从url可以看出规律:https://m.tianqi.com/lishi/ + 城市名字全拼 + 两位数的月份
基于这一点这部分数据直接采用requests请求即可
2.页面分析
下图是url: https://m.tianqi.com/lishi/chengdu/201904 返回的页面
上图中包含了2019年4月份的所有天气数据:有这个月的平均高低温统计和当前月每一天的天气数据,对于以上的数据,文章只需要一下几个:
平均低温和平均高温:主要用于统计近五年成都的天气变化情况
平均低温指的是当前月每一天的最低温平均值,对应于上图中左边一列数据的平均值,平均高温也是类似
天气情况:即对应下图数据
这部分数据用于统计成都近五年的下雨天数变化情况
网站的页面也比较简单:
(1)平均高低温数据
这部分数据是以表格形式组织的,文章使用pyquery进行解析
(2)天气数据
只需要提取上图中的<a标签中的数据即可,文章使用pyquery解析数据
空气质量(AQI)数据;来源于网站PM2.5历史数据
网站值收录了2014年到现在的历史数据
1.url分析:
https://www.aqistudy.cn/historydata/daydata.php?city=成都&month=201903
改变url中的城市和month即可得到需要的数据
使用requests可以实现
2.页面分析
下图是url: https://www.aqistudy.cn/historydata/daydata.php?city=成都&month=201903 返回的页面
上图包含了当前月每一天的详细AQI数据,在本文章只需要提取AQI这一列对应的数据即可,提取到AQI,之后根据下图即可转化为对应的空气质量等级:
根据上图,本文对提取到的AQI数据划分为以下几个类别,并统计对应类别的天数:
优:AQI <= 50
良以上(包含良和优):AQI <= 100
轻度污染以上(包含轻度污染、良和优):AQI <= 150
轻度污染以下(包含中度、重度和严重污染):AQI >= 151
在提取数据前都需要对网页的源码进行分析,上图的网页源码如下:
在源码分析时发现一个问题,源码只有表头数据,表格内容数据并没有直接出现,并且没有发现有AJAX请求,进一步分析:
数据获取的关键函数是getServerData函数,但是进一步追踪下去并还是没有找到服务器返回给浏览器的json数据,之后便放弃了requests,转而使用selenium,简单来说selenium获取到的是js渲染后的页面源码,更多关于selenium的介绍请看历史文章。使用selenium获取到的页面源码如下如所示:
上图是浏览器渲染后的页面源码,本文使用pyquery进行解析获取数据,更多关于pyquery的介绍请看历史文章
三、代码实现和结果分析
(1)程序实现时主要分为以下几个模块
获取、拼接url
访问上面url,并返回页面源码
页面数据解析、和数据存储
数据可视化
(2)下面是成都天气数据的可视化
下图中的的横坐标都是代表月份:1到12月
上图看出:18年7月下了27天的雨,而且剩余三天:两天是阴一天是多云
另外,18年1到5月份以及9月到11月的整体下雨天数比前几年少,整体而言,18年的下雨天数明显减少
2012年全年有190天在下雨,全年一半以上都有雨。
一个很奇怪的现象:17年后下雨的天数断崖式下降!!!
每年成都的温度数据较为规律,七、八月份是一年中最热的时候:此时平均低温23摄氏度左右、平均高温32度左右
近五年的数据表明,污染主要出现在:1月、2月以及12月
上图可以看出:
成都空气质量为优的天数逐渐增加
良以上的空气质量天数增加
轻度污染以上的天数也是增加
中度、重度和严重污染的天数在减少
整体而言,成都的空气质量在逐步改善
限于文章篇幅字数限制,正文就不贴源码了,需要源码的小伙伴可以在后台获取:
长按识别下方二维码,发送“成都”
即可获取完整爬虫源码和代码解析
热 文 推 荐
公众号后台回复“目录”:即可获取小编熬夜编排整理好的历史文章:
部分目录如下(可上下滑动):
公众号后台发送“爬虫”,即可获取“零基础:一起学爬虫专栏”系列文章
点击阅读原文获取4T基础资料和5T精品资料
喜欢就给个“在看”