社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

用Python绘制了若干张词云图,惊艳了所有人

CDA数据分析师 • 1 年前 • 158 次点击  
作者:关于数据分析与可视化

来源:俊欣

在数据可视化图表中,词云图的应用随处可见。它通常是对输入的一段文字进行词频提取,然后以根据词汇出现频率的大小集中显示高频词,简洁直观高效,今天小编就来分享一下在Python如何绘制出来精湛的词云图。

小试牛刀

我们先来尝试绘制一张简单的词云图,用到的Python当中的wordcloud模块来绘制,

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

我们导入文本内容,并且去除掉一下换行符和空格,代码如下

text = open(r"明朝那些事儿.txt",encoding='utf8').read()
text = text.replace('\n',"").replace("\u3000","")

我们需要将其分成一个个的词,这个时候就需要用到jieba模块了,代码如下

text_cut = jieba.lcut(text)
# 将分好的词用某个符号分割开连成字符串
text_cut = ' '.join(text_cut)

当然了,得到的结果当中或许存在着不少我们不需要看的、无关紧要的内容,这个时候就需要用到停用词了,我们可以自己来构建,也可以直接使用别人已经构建好的停词表,这里小编采用的是后者,代码如下
stop_words = open(r"常见中文停用词表.txt").read().split("\n")

下面便是绘制词云图的核心代码了

word_cloud = WordCloud(font_path="simsun.ttc",  # 设置词云字体
                       background_color="white"# 词云图的背景颜色
                       stopwords=stop_words) # 去掉的停词
word_cloud.generate(text_cut)
word_cloud.to_file("1.png")

output

这样一张极其简单的词云图算是做好了,当然我们可以给它添加一个背景图片,例如下面这张图片,

主要需要添加的代码如下所示

background = Image.open(r"5.png")
graph = np.array(background)

然后在WorCloud当中添加mask参数

# 使用WordCloud生成词云
word_cloud = WordCloud(font_path="simsun.ttc",  # 设置词云字体
                       background_color="white"# 词云图的背景颜色
                       stopwords=stop_words, # 去掉的停词
                       mask=graph)
word_cloud.generate(text_cut)
word_cloud.to_file("1.png")

output

深度优化

除此之外,还有另外一个模块stylecloud绘制出来的词云图也是非常酷炫的,其中我们主要是用到下面这个函数

gen_stylecloud(text=None,
               icon_name='fas fa-flag',
               colors=None,
               palette='cartocolors.qualitative.Bold_5',
               background_color="white",
               max_font_size=200,
               max_words=2000,
               stopwords=True,
               custom_stopwords=STOPWORDS,
               output_name='stylecloud.png',
)

其中几个常用的参数有

  • icon_name: 词云图的形状
  • max_font_size: 最大的字号
  • max_words: 可以容纳下的最大单词数量
  • stopwords: 用于筛选常见的停用词
  • custom_stopwords: 要是自建有停用词表,可以拿来用
  • palette: 调色板

我们来尝试绘制一个词云图,代码如下

stylecloud.gen_stylecloud(text=text_cut,
                          palette='tableau.BlueRed_6',
                          icon_name='fas fa-apple-alt',
                          font_path=r'田英章楷书3500字.ttf',
                          output_name='2.png',
                          stopwords=True,
                          custom_stopwords=stop_words)

output

其中的palette参数作为调色板,可以任意变换的,具体参考:https://jiffyclub.github.io/palettable/ 这个网站。

pyecharts

最后我们来看一下如何用Pyecharts模块来进行词云图的绘制,代码如下

from pyecharts import options as opts
from pyecharts.charts import Page, WordCloud

words = [
    ("皇帝", 10000),
    ("朱元璋", 6181),
    ("明朝", 4386),
    ("朝廷", 4055),
    ("明军", 2467),
    ("士兵", 2244),
    ("张居正", 1868),
    ("王守仁", 1281)
]

c = (
        WordCloud()
        .add("", words, word_size_range=[20, 100])
        .set_global_opts(title_opts=opts.TitleOpts(title="基本示例"))
    )

c.render("1.html")

output

出来的结果略显简单了,不过这里值得注意的是,pyecharts当中的WordCloud()方法传入的数据是指定的词语以及其出现的频次,这个和之前的操作有所不同



 

点这里👇关注我,记得标星哦~



推荐阅读


 

CDA课程咨询

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/138688
 
158 次点击