社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

教你如何用python正经地八卦:运动员肉体观赏指南

网易云课堂 • 7 年前 • 869 次点击  

如果有10个人关注“体育赛事”

那就有100个人关“体育明星”

如果有10个人关注羽生结玄能否完成“勾手四周跳”

那就有100个人关注羽生结玄优雅的肉体 

如果说有10个人关注张继科即将复出比赛

那就有100个人关注他和景甜的CP是怎么成的

  八卦的力量是无穷的 !  


那么身为一个在职场打拼、会抓热点、有技术控的编辑,怎样做一次不妖艳,不从众的八卦研究呢?今天小编就为大家秀一把新学的技能:用python完成一次与众不同的八卦。


本文以奥运数据为导向进行体育明星特点分析,同时也是一个免费的数据技能教程,适合所有数据初学者,具体包括:

1、数据哪里找?——网页数据爬取

2、体育明星肉体观看指南——python数据清洗、分析与简单建模

3、体育明星CP——数据结果快速可视化

4、总结报告——收集和展示数据结论

 

 小编亲测,跟一遍操作你也能很快上手。心急的同学可以直接去文末获取教程~





01

一个头疼的问题

——鲜肉数据哪里找?  


研究主题的网页数据是一种最常用的数据收集方法。奥运会可说是一个综合度高,信息齐全的主题。百度一下,很快能找到相关信息网站:网易奥运数据库


打开网站源代码,会发现所有的网站数据都记录在内:


网易奥运数据库url:http://info.2016.163.com/athlete/list/


不需要会写html代码,只要能使用ctrl+f找到你需要的数据,并用三方软件写脚本,十分钟就能获取所有上一届奥运会运动员的csv数据:


写好爬虫脚本即可快速获取运动员从csv数据


当然,本次小编获取的数据已经打包在文末的教程里了,不用谢


02 

体育明星肉体比拼

——谁是我的菜? 


做完必要的数据清洗,接下来小编要思考的是往什么方向做研究。说到肉体,身材匀称的长腿鲜肉的是最容易红的。哪个项目有最多的潜在网红?谁是大家都爱欣赏的最美肉体?小编思考一番,决定分别用BMI指数手长腿身比年龄来描述身材匀称、长腿、鲜肉等指标。


调用python中的神器库pandas进行数据加载、清洗和分析,再使用matplotlib库中的组合图功能以及seaborn库中的美化功能,便可以快速美观地批量出图:


使用matplotlib库可以做组合图表,一键存图,自由度高,在前期可视化找结论的阶段很实用


一项数据研究的开始总会有很多脑洞,对这些小结论进行筛选的过程也是理解数据本身的过程


了解了基本情况,小编便决定按大众喜好制定以下四条评分规则,最后归一化处理,分别得出每个项目的运动员总评分评分分布情况:

1、BMI评估:最接近22,差值绝对值越小分数越高

2、腿长评估:计算与身高的比值,比值越大分数越高

3、手长评估:计算与身高的比值,比值越接近1分值越高

4、年龄评估:年龄越小分数越高

综合来看,跳水、拳击、游泳的整体表现比较好,且项目里均有几个肉体得分高的人。


那么究竟是哪些运动员有“最美肉体”按照同样的逻辑,小编改了几行代码,很快地计算出每个运动员的评分和排名,并进行可视化:


按照小编的计算得出的“谁是大家都爱欣赏的最美肉体”TOP8运动员:


所以大家可以留心一下,你最喜欢的体育明星上榜了吗???钟爱游泳的小编当然不会放过国民网红傅园慧,97年的沈铎妹子接下来也会是小编的“重点关注对象”。


03

每一次大型赛事都是CP党的福利

——体育明星错综负载的关系网  


网友们的眼中不只有比赛的激情,还有cp党的基情,先看看当年的搜索热度:

其实,明星圈的关系比你想象的复杂得多。而联系图,正是处理这些错综负载的关系的最好可视化方法。


继续使用python将明星cp数据处理成一一对应的格式,再使用可视化软件gephi快速可视化:

体育明星关系图,图中圆点大小代表cp数量大小,颜色代表不同项目的分组,连线粗细代表联系强弱。


图中可以明显看到多个体育明星cp关系: 宁泽涛拥有最多的CP;福原爱与张怡宁有最强的联系度;张继科在乒乓球界cp众多,而马龙眼里只有张继科……


04

八卦了这么多

——是时候总结一下了  


小编有个好习惯,把做过的数据小研究收集起来,方便翻阅。放在ppt文件容易忘,所以小编通常会把一些结论做成图表报告放在在线工具inforgram里,还可以一键分享:


复制这个url到浏览器就能看到小编的在线报告了:https://infogram.com/--1hnp27xdgyyp6gq




时过境迁,福原爱酱已经嫁为人妻,张继科也被宇宙景甜给抢走了,当年的CP越来越凉,奥运热度不再。那么问题来了,为什么小编学习了新技能,辛辛苦苦写下了以上所有代码?


——因为下一个体育热点“世界杯”就要来了啊!


把这些代码变保存好变成脚本,数据的处理过程就保存下来了,下一次使用就能省下数据清洗、整理、构思的时间,比以前用excel快多了。


磨刀不误砍柴工,小编的又一篇文章搞定!老板满意,主编点头,不用加班!


好了,小编知道你也不想加班。这些技能,是小编花了一周业余时间从大鹏老师的免费python数据分析教程中学习的你上你也行!参与方法就在下方,快开始你的学习之旅吧。



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/Sqbf1USAVU
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/11756
 
869 次点击