社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

用Python重新定义【2019十大网络流行语】

CDA数据分析师 • 5 年前 • 594 次点击  

作者:朱小五

来源:凹凸玩数据


“文明互鉴真硬核,

融梗柠檬谁觉得。

霸凌第一九九六,

 块链不知太难了。


12月1日,《咬文嚼字》编辑部以一首“顺口溜”发布2019年度十大流行语。“文明互鉴”、“区块链”、“硬核”、“融梗”、“××千万条,××第一条”、“柠檬精”、“996”、“我太难/南了”、“我不要你觉得,我要我觉得”、“霸凌主义”十条流行语入选。


微博评论下有很多网友纷纷表示,XXX为什么能上榜?XXX为什么没上榜?


这点呢,小五表示理解,毕竟采用不同的统计口径得出的结论可能不同。


那么,小五干脆也自己定义个统计口径,重新“定义”一下【2019十大网络流行语】


此处致敬一下重新定义的鼻祖——罗老师。


获取数据


通过搜索“网络流行语”,可以发现已经有网站帮我们做了整理。



利用python爬虫可以获取该网站的2019年度所有网络流行语。


def main():
    data = []
    n = 1
    for i in range(4542,5589): 
        dic = {}
        url = 'https://www.lxybaike.com/index.php?doc-view-'+str(i)+'.html'
        print('已成功采集{}条数据'.format(n))
        html = restaurant(url)
        doc = pq(html)
        dic['tittle' ] = doc('#doctitle').text()
        dic['num'] = doc('#doc-aside > div.columns.ctxx > ul > li:nth-child(1)').text()
        data.append(dic)
        time.sleep(random.random())
        n = n + 1
    return data  


爬取成功√


共929个词语。


我们在获取这些热门流行词的同时,也获取了他们的一些其他数据,比如浏览次数和出现时间。



但浏览次数很难作为评判这个词语是否热门的指标,毕竟大家又不是都来这个网站搜索,所以还是需要一个全网的数据才更准确一点。


一开始选择了百度指数,结果发现很多词语没有收录,需要付费。于是我就选用了搜狗指数!



将刚才爬取得到的929个网络流行语,可以根据下面式子来构造url。


urls= 'http://zhishu.sogou.com/index/searchHeat?kwdNamesStr='+str(name)+'&timePeriodType=YEAR&dataType=SEARCH_ALL'


再循环爬取依次得到他们的年度平均搜索指数。


成功得到2019年度网络热门流行词排行榜(凹凸玩数据版)



其中标记绿色的词语为2018年末出现,在2019年开始流行,在统计时也列入列入2019流行语中。



2019网络热门流行词排行榜


根据上文得到的热门流行词排行榜,小五又搜集了一些网上的资料 ,利用PS来制作了十张流行词的解释图。


下面开始颁奖:



一千个人眼中就有一千个哈姆雷特。


相信每个人心里都有自己的一个流行语排行榜。


不知道小五重新定义的排行榜与你心中的相差多少?


相关爬虫源码已上传github:https://github.com/zpw1995/aotodata/tree/master/interest/popular


end.

📌CDA课程咨询

赵老师

微信号 : CDA11111111

联系电话:13381275813

长按二维码,添加好友咨询


⭐️为CDA数据分析师点亮星标⭐️



📚推荐阅读 READ MORE


 干货 | 如何用Python开启你的机器学习之路

 【神预测】数据分析精准预测2019天猫双11成交额! 误差仅仅千分一!

  今年双11,你盖楼了吗? | 用数据解读不一样的双11

●  实锤!中国自己的数字货币DCEP!拥有法币地位,任何机构和个人不得拒绝,没网的地方也能用!央行DCEP,全球第一大主权数字货币!


喜欢本篇内容请点个“在看”哦!❤️




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/51049
 
594 次点击