社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

D20访谈直播预约！阿里AIGC大会“云参与”

一个回车符搞崩Git，甚至能触发远程代码执行？

AI商业洞察 | 比亚迪与香港科技大学成立具身智能联合实验室；上海19所高校开设AI专业；LGND ...

加冕时刻丨2025第十三届TopDigital创新营销奖获奖企业捷报

前端死在了 Python 朋友的嘴里？他用 Python 写了个交互式数据看板，没碰一行 JavaS...

阿里千问悄悄上线 ChatGPT 平替：Qwen Chat 桌面版，MCP 功能真香！

不止AlphaFold，「药界ChatGPT」横空出世！华人女投资人深度揭秘

Java×AI：黑马《AIGC应用与智能体开发》项目上线！

谷歌斥资24亿美元购买Windsurf技术授权，并聘请其CEO；OpenAI CEO：将推迟开放式权...

OpenAI被曝将推出开源AI模型；xAI发布Grok 4；Manus裁员｜AIGC周观察第九十八期

关注

Py学习 » Python

Python 遇见茶文化，鉴茶指南

程序员专栏 • 3 年前 • 404 次点击

👇👇关注后回复 “进群” ，拉你进程序员交流群👇👇

作者丨木下瞳

来源丨木下学Python

Start

阅读本文及源码，可以和小编一起学到 xpath 表达式爬取数据，多进程爬取，pandas 基本操作，pyecharts 可视化，stylecloud 词云，文本余弦相似度相似度，KMeans，关键词提取算法：TextRank，TF-IDF，LDA 主题模型。

源码获取在文末

前言

最近上班买了点茶叶，搞了一个 1L 的杯子放桌上，每天泡茶想着喝那么久的茶，还没怎么了解过茶，于是从数据的角度来探索一下茶。

小编找到一个和茶有关网站：

https://chaping.chayu.com/?bid=1

数据获取

从首页进入茶评，可以看到所有茶的基本信息，结果有多页，获取所有的基本信息包括标题，评分，品牌，产地，茶类，详细链接，id：

再根据获得的链接，下钻爬取每一种茶的推荐指数，总评，所有排行：

及爬取对应的评论，有多页就爬取多页，包含字段评论人，评论人等级，评分，评论，评论时间：

最后保存为 tea.csv,comment.csv 两个 csv：

整个爬虫流程就这样，使用了 xpath 提取，多进程爬取，逻辑不算复杂，详细实现逻辑可查看源码。

数据分析

总共获得 3w 条数据，获得数据后就可以开始进行探索了。

先对标题进行查看，标题是由品牌及名称构成，处理为只保留名称部分，绘制词云。

红茶，白杜丹，铁观音，绿茶，毛尖等一些听到过的茶名称还是比较多的：

茶评分取值为 0-10，对评分每两分进行切分后绘制直方图。

从结果上看，评分都挺高的，只有个别评分是低于 4 分的，小编选出数据看了看，总评价对这些低分的茶评价不是特别友好：

现在基本上每种茶都有专门的品牌在售卖，对品牌进行统计，绘制词语。

发现斗记茶业，中茶，大益，天福茗茶等较为突出，这些品牌就算不了解茶，但多多少少也听到过在大街上看到过：

每种茶都有它独特的产地，对产地绘制热力地图。

发现产地来自云南的是最多的，多达上千种，小编查了查，云南茶叶最重要的原产地，云南是茶叶最为古老的故乡。

其次是福建，有着一千多年的茶文化历史，是最中国产茶的重要产地：

目前茶类可分为普洱，绿茶，红茶，乌龙，黑茶，白茶，花茶，黄茶，袋泡，速溶茶十大类，每个大类别有细分很多小类，对每个大类进行统计绘制柱状图。

发现普洱茶是类别最多的，其次是绿茶，红茶，看到这里小编想到自己都很少喝普洱茶：

热搜能从侧面反映一种茶受不受欢迎，小编选出热搜排名前 10 的茶，拉出明细。

发现排名第一的是经典普洱，普洱也是种类最多的茶，以后可以特地买一点试试：

对评论时间以时间年月为维度，同比每一年每一月的评论走势图。

发现评论用户 14-17 年活跃程度是一直攀升，之后下跌了：

到这里，探索性分析就完成了，主要用到了，pandas，stylecloud，jieba，pyecharts 这些技术，详细实现过程可参考源码。

关键词提取

在获得的数据中，有总评字段，即对每一种茶的评语，有每一个用户评论的字段，利用这两个字段来实现文本关键词提取。

对于总评，我们想把总评相似的茶分到一起，可以使用 KMeans 聚类算法，但总评是文本数据。

需要先提取每条总评中的关键词，使用了 TextRank 算法提取关键词，原理是基于句子进行分词，对每个词进行权重打分，获得分数高的作为关键词。

对关键词向量化，再计算余弦相似度，最后使用聚类算法，分为了两种种类。

种类一主要是从品尝方向进行评价的，香气，滋味，入口，顺滑等。

种类二主要是从外表方向进行评价的，外形，条索，色泽，原料等：

对评论先使用了 TF-IDF 算法进行关键词的提取，是有 TF，IDF 两部分算法组成。

TF，计算每一个词在所有文本中出现的频率。

IDF，计算每一个词在所有评论中，在多少条评论中出现的次数，映射一个分值。

最后 TF*IDF 选出分值前 10 的关键词：

第二种方法是利用主题模型 LDA 进行关键词提取，需要先确定主题数，再提取关键词，这里就选取 1 个主题，及前 10 关键词：

-End-

最近有一些小伙伴，让我帮忙找一些面试题资料，于是我翻遍了收藏的 5T 资料后，汇总整理出来，可以说是程序员面试必备！所有资料都整理到网盘了，欢迎下载！

点击👆卡片，关注后回复【面试题】即可获取

在看点这里好文分享给更多人↓↓

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/121306

404 次点击

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号