最近,由芒果TV推出的综艺节目《乘风破浪的姐姐》,可谓是火爆了全网,堪称年度综艺前几名的存在,首播播放量便过亿!相比青春有你,这些姐姐虽然在年龄上可能不具有优势,但是她们身上散发的个人魅力还是相当了得,个个都是实力牌。
方便大家更好的对选手们有一个全方位的了解,小编抓取了参赛姐姐们的信息,并带领大家一步步的看一下,从我们提取到的数据中能得到哪一些信息。
01
数据的获取
首先,我们需要做的就是抓取到选手们的信息,这里,我们爬取的是公开在百度百科和维基百科上的选手信息。
由于两个网站采用的都是静态的页面,所以抓取也相对简单,我们以较为复杂的百度百科抓取为例,来介绍一下程序的抓取。如下图所示:
网页的源代码中对应着选手的一些信息,包括姓名,宣传照和职业等等信息。我们需要分析网页源代码来提取宣传照图片的地址、选手的姓名以及职业,部分程序如下图所示:
上图中,我们利用GetPicSource函数首先提取了宣传照图片的下载地址;
然后利用BeautifulSoup库来解析网页源代码,由于不同的div标签数量不一致,所以需要格外自己的分析,并进行解析;
接着将我们提取到的信息进行保存即可。
对于维基百科的信息提取也是同样的操作,最终我们抓取到的信息,包括了选手们的姓名,年龄,出生年月,出生地以及图片的下载地址,职业以及初始舞台分数等信息。
02
数据的处理
对于信息提取完毕后,接下来就是对于数据的处理。我们先来看一下我们提取到的数据:
我们可以看到,我们已经抓取到了我们需要的数据,接下来我们就可以对数据进行简单的清晰,并进行分析。对于宣传照的抓取和保存,可以简单的利用五行代码即可搞定,程序和提取结果,如下图所示:
03
数据的分析
我们对于选手的年龄进行一下分析,这里需要注意的是,小编采用的是pyecharts1.8.1版本进行的可视化展示。同时pyecharts1.x和pyecharts0.x版本之间存在较大的差异。如果大家在运行源码时出现找不到模块的错误,大多是版本不正确引起的,需要大家格外的注意。好了我们接着进行程序和结果的展示:
1).年龄的分布
我们首先对年龄进行分段划分,然后对分段年龄进行可视化展示,如图所示,选手的年龄大都集中在33-40和26-33的年龄段,相比于其他选秀节目,《乘风破浪的姐姐》堪称是大龄选秀。
2).职业分布
对于选手的职业分布,我们可以看到,参赛的选手大多数演员和歌手出身,但是选手中存在许多身兼数职的现象,比如说某位参赛选手,既是歌手同时也是演员,可谓是演而优则唱的代表。
3).出生地分布
对于选手的出生地,我们只是选取了出生地在中国的选手,我们可以看到,选手中湖南选手是最多的,其次是四川的选手,从整体的南北方分布来看,南方的选手要多于北方。
4).年龄vs得分关系
最后,我们来看一下评分前五名的选手在年龄和初舞台评分上的关系,我们可以看到,前五名的选手得分都在86分以上,而她们的年龄则是分布在30岁左右。
对于参加比赛的整体选手,她们的平均年龄为35岁,而评分前五名的选手,她们的平均年龄仅为30.8岁,可见,年龄因素对于成绩存在一定的反比例影响。
以上就是小编今天为大家带来的《乘风破浪的姐姐》的一些解密,大家可以下载源码以及小编为大家下载好的数据,进行进一步的分析,发现更多的秘密,大家赶快行动起来吧。今天你看了《乘风破浪的姐姐》吗?欢迎留言区点评。
需要源码可以在文末获取。
618福利活动,当当4折起
冲鸭!羊毛薅起来!当当618专享不到4折,Python书籍囤起来!
近期原创热门:
扫码输入【乘风破浪】
获取本篇源码
点的“在看”,否则就看不到我了555