社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

在北京多少积分可以落户?用Python 帮你分析6019位落户人员信息

脚本之家 • 5 年前 • 577 次点击  

  脚本之家

你与百万开发者在一起

本文经授权转自公众号 凹凸数据(ID:alltodata

作者:MINUS大大

如若转载请联系原公众号


北京积分落户制度已经实行两年了,2018年申报积分落户的124657名申请人中6019位落户人员取得落户资格。


而去年2019年,申报积分落户人数为106403名,实际公示名单共6007人。


准备打开官方网站下载数据分析一下,结果发现过了公示期网页就打不开了。


经过一番努力,在网上收集到了2018年的6019位落户人员名单和信息(均为公开展示信息)。



01


数据分析


我们本次用到的分析工具包有:pandas 、seaborn 和Matplotlib。


落户数据是csv文档(文末可下载),内部记录了6019条落户信息。


所以先利用pandas读取数据csv文档,并看看有哪些列,可以看到这个表有4列构成,人名、生日、公司、积分


luohu_data = pd.read_csv('./bj_luohu.csv', index_col = 'id')
luohu_data.head(5)



此时有一个疑问这些人来自哪些公司呢?公司有没有重复的? 这些公司都是哪些行业的?


所以按照公司分组查看一下:


company_data = luohu_data.groupby('company', as_index=False).count()[['company''name']]
company_data.rename(columns={'name':'人数'}, inplace=True)      # 替换 1
company_data.rename(columns={'company':'公司名'},inplace=True)  # 替换 2
company_data.head(20)



这么直接看的话人数没有顺序的,所以我们再对人数进行降序排列,看看落户最多的哪几家!


company_sorted_data = company_data.sort_values('人数', ascending=False)
company_sorted_data.head(15)   # 前15



emmmm。。。。满眼科技公司,华为、百度、联想、爱立信、腾讯均在前15名,其次是一些国企央之类的。



2


数据可视化


积分数socre是连续数值,因此这里进行分段分析,经过describe初步了解,得分最小90,最大122.6 所以这么划分:90-130分,5分一段


cut_bins = np.arange(901305)   #分段设置
bins = pd.cut(luohu_data['score'], cut_bins)  # 将落户数据,按照cutbins来切一下
bin_counts = luohu_data['score'].groupby(bins).count()
bin_counts.head(10)



直接出来的话是数据,那么我在直接画个图更直观的看一下


plt.figure(figsize=(15,8))
plt.rcParams['font.family']='Arial Unicode MS'
plt.rcParams['axes.unicode_minus']=False
plt.rcParams['font.size']=12

x_name=['90-95','95-100','100-105','105-110','110-115','115-120','120-125']
sns.barplot(x_name,bin_counts)
plt.ylabel('人数')
plt.xlabel('分数区间')

for x, y in zip(range(7), bin_counts):
    plt.text(x, y+20 , y, ha='center', va='bottom')

plt.show()



可以看到,落户人数主要集中在90-100分之间,合计5101人,如果想落户,达到95分就没什么问题了。


那么现在又有个问题,比如达到90分以上我都60了也没啥意义了,那么这些落户的主要集中在什么年龄段呢?年龄与积分有相关性吗?来看看。


首先需要根据生日算一下落户年龄


luohu_data['age'] = (pd.to_datetime('2018-07') - pd.to_datetime(luohu_data['birthday'])) / pd.Timedelta('365 days')
luohu_data.describe()



mean=luohu_data['age'].mean()
std =luohu_data['age'].std()

# 得到上下限
lower , upper =mean -3*std , mean+3*std

print('均值',mean) 
print('标准差',std) 
print('下限',lower) 
print('上限',upper)


得到:




作图看一下分布


#fig.set_size_inches(15,5)   # 设置画布大小
sns.distplot(luohu_data['age'])  



可以看到,最小的年龄也32岁了最大年龄60岁,75%分位数在43岁左右。年龄均值42岁。



3


总结


根据本篇简单的数据分析我们发现:


通过积分获得北京户口的年龄段集中在35岁到46岁之间,主要为42±2岁之间;积分集中在90分左右,行业集中在IT和国企央企及金融行业


据有关媒体统计,在北京当前的积分落户政策下,本科生需要15左右年才能拿到100分,研究生也需要12年以上才能拿到100分。


大家想一下:虽然现在100分可以落户,但12/15年后跟你同批的毕业生就全都100分了......


而其他城市的落户政策是上海七年,香港七年,深圳一年,北京落户还真是真是不容易啊。


相关分析源码和北京积分落户数据已上传github:https://github.com/zpw1995/aotodata/tree/master/bj_luohu

- END -



更多精彩


在公众号后台对话框输入以下关键词

查看更多优质内容!


女朋友 | 大数据 | 运维 | 书单 |  算法

大数据 | JavaScript | Python | 黑客

AI | 人工智能 | 5G |  区块链

机器学习 | 数学 | 送书

●  百度、腾讯、阿里等互联网公司年终奖都发多少?

●   脚本之家粉丝福利,请查看!

●  人人都欠微软一个正版?

● 致敬经典:Linux/UNIX必读书单推荐给你

 鲁大师原来真的姓鲁

● 终于有人把 Nginx 说清楚了,图文详解!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/53546
 
577 次点击