社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

什么?3 行 Python 代码就能获取海量数据?

数据分析与开发 • 2 年前 • 251 次点击  


一谈起数据分析,首先想到的就是数据,没有数据,谈何分析。


毕竟好的菜肴,没有好的原材料,是很难做的~



所以本文给大家分享一个获取数据的方法,只需三行代码就能搞定。


「GoPUP」,大佬造的轮子,大概有100+的免费数据接口。




GitHub:https://github.com/justinzm/gopup


使用文档:http://doc.gopup.cn/#/README


主要有指数数据、宏观经济数据、新经济数据、微博KOL数据、信息数据、生活数据、疫情数据等。


# 安装gopup
pip install gopup  --upgrade


安装成功后,就能使用了。


01 微博指数


获取指定关键词的微博指数。


# 微博指数
import gopup as gp
df_index = gp.weibo_index(word="马保国", time_type="1month")
print(df_index)


time_type="1month"; 1hour, 1day, 1month, 3month 选其一。



三行Python代码实现数据获取。



02 百度指数


获取指定关键词的百度搜索指数。


# 百度指数
import gopup as gp
cookie = "此处输入您在网页端登录百度指数后的 cookie 数据"
index_df = gp.baidu_search_index(word="马保国", start_date='2020-11-15', end_date='2020-11-25', cookie=cookie)
print(index_df)



需要登陆百度指数,获取你的Cookie。



设置关键词,时间起始,就能获取到马保国老师的热度数据了。



后面还有百度资讯、媒体、需求图谱、人群年龄、性别、兴趣分布数据接口,就不一一介绍了。


感兴趣的同学可以自行去查看文档。



03 头条指数



获取指定关键词的头条指数。


# 头条指数
import gopup as gp
index_df = gp.toutiao_index(keyword="马保国", start_date='20201115', end_date='20201125')
print(index_df)


接口挂了,不知为何~


还有相关性、情感、地域、城市、年龄、性别、用户阅读兴趣分析数据等接口。



04 谷歌数据


需要通过代理才能使用,不过上面这三类已经完全够用了。


# 谷歌数据
import gopup as gp
index_df = gp.google_index(keyword="马保国", start_date='2020-11-15T10', end_date='2020-11-25T23')
print(index_df)



05 宏观经济数据


有一个杠杆率的数据可以使用。


# 杠杆数据
import gopup as gp
df_index = gp.marco_cmlrd()
print(df_index)


不懂经济学,所以不明觉厉。




06 新经济数据


这个数据倒是蛮有趣的,主要是公司数据。


比如独角兽和倒闭公司的数据。


# 独角兽公司数据
import gopup as gp
df_index = gp.nicorn_company()
print(df_index)


一共是240家独角兽公司。



蚂蚁、字节、阿里云、滴滴,都是行业中的大佬。


# 倒闭公司数据
import gopup as gp
df_index = gp.death_company()
print(df_index)


倒闭的公司一共有6921家。



看到不少P2P的公司。


剩下还有有一个特许经营许可数据,好像是吊牌销售的意思。


前段时间看到一篇文章,讲的就是南极人吊牌销售的事情,南极人都不自己搞生产,而是代工。



07 KOL数据&信息数据


主要是微博的KOL,所以没啥用。


# KOL数据
import gopup as gp
g = gp.pro_api(token = "……")
df_index = g.weibo_user(keyword="雷军")
print(df_index)


信息数据是新闻联播文字稿。



08 中国油价数据


包含汽油和柴油的调价信息数据。


# 油价数据
import gopup as gp
df_index = gp.energy_oil_hist()
print(df_index)


时间从2000年直到2020年,细数20年油价变化。




09 百度迁徙数据


可以用来做飞线图或者OD图。


# 迁徙数据
import gopup as gp
migration_area_baidu_df = gp.migration_area_baidu(area="湖北省", indicator="move_in", date="20200201")
print(migration_area_baidu_df)


单次返回100个城市的数据。




10 影视数据


实时电影票房数据,最近又有病例出现,数据应该也比较惨淡。


这里需要一个WebDES.js文件,才能请求成功。


# 实时电影票房数据
import gopup as  gp
df_index = gp.realtime_boxoffice()
print(df_index)


「如果声音不记得」当日1千万的票房,太少了。



单日影院数据,今年影院能倒闭一大堆。


# 单日影院数据
import gopup as gp
df_index = gp.day_cinema(date="2020-12-08")
print(df_index)


得到票房前100的数据。



最高应该是8万多的收入。


实时电视剧播映指数,天气冷了选个好剧或者综艺,窝在被窝刷起来。


# 电视剧数据
import gopup as gp
df_index = gp.realtime_tv()
print(df_index)


大秦赋,也在看,感觉还不错。



还有实时综艺播映指数、艺人商业价值、流量价值等数据。



11 全国高等学校数据


普通高等学校名单,包含名称、主管部门,所在省市、所在地、办学层次等信息。





    

# 普通高等学校数据
import gopup as gp
df_index = gp.university()
print(df_index)


一共是2631所高校。



还有成人高等学校以及高等学校详情数据。



12 疫情数据


有网易、丁香园、百度三家的疫情数据。


# 世界历史累计确诊数据
import gopup as gp
covid_163_df = gp.covid_163(indicator="世界历史累计数据")
print(covid_163_df)


目前累计207个国家有疫情出现。



全世界总共就233个国家和地区,快接近90%了。


- EOF -


推荐阅读  点击标题可跳转

1、用 Python 创作酷炫的几何图形

2、Python 办公自动化之 Excel 报表自动化,看这一篇就够了!

3、如何访问 redis 中的海量数据?避免事故产生


看完本文有收获?请转发分享给更多人

推荐关注「数据分析与开发」,提升数据技能

点赞和在看就是最大的支持❤️

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/117753
 
251 次点击