前言
10月18日上午9:00,中国共产党第十九次全国代表大会开幕会在人民大会堂大礼堂举行,习近平总书记代表十八届中央委员会向大会作了报告。报告全文3万多字,讲话时长3个多小时,铿锵有力,振奋人心。
会后,本着认证学习并贯彻十九大精神的目的,本人使用用jieba
+wordcloud
对习总书记在十九大开幕式上的发言做了词云分析,以作为学习资料。
环境
- Python 3.6.1
- Windows 7 64位
- PyCharm 2017.1.4
思路
首先获取分析文本,然后使用jieba
包进行分词,最后用wordcloud
包生成词云图。
获取分析文本
讲话当天很多网站便刊登了报告全文,在这里我选择了其中公信力较强的中国网发表的文章《中共十九大开幕,习近平代表十八届中央委员会作报告(直播全文)》作为文本来源
首先复制文本并转存为习近平十九大报告全文.txt
文件,放入根目录下待处理。
jieba分词
“结巴”中文分词:做最好的 Python 中文分词组件。
“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
- Scroll down for English documentation.
安装
代码对 Python 2/3 均兼容
安装:
1 | pip install jieba |
开始分词
1 | import jieba |
wordcloud词云
构建词云的方法很多, 但是个人觉得python的wordcloud包功能最为强大,可以自定义图片.
官网: https://amueller.github.io/word_cloud/
github: https://github.com/amueller/word_cloud
安装
方法:
1 | pip install wordcloud |
如果使用pip安装时出现以下错误
解决方案
在http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载
wrapt‑1.10.10‑cp36‑cp36m‑win_amd64.whl文件,然后到本文件所在目录执行
1 | pip install wrapt‑1.10.10‑cp36‑cp36m‑win_amd64.whl |
即可安装。
生成词云
首先我们把想要设置的词云背景图片存入根目录下(在这里我采用的是党徽)
生成词云的代码,具体逻辑看代码注释:
1 | import matplotlib.pyplot as plt |
结果展示
生成的过程可能较慢(我的笔记本大概花了1mins)中间会生成一个预览窗口,关闭后才会将.png保存出来
最后出来的效果:
注:关于图中出现的错误分词可在jieba分词的设置中逐个忽略掉。
最后,还是那句话:认证学习贯彻党的十九大精神,把学习作为自己的重要任务,不断在汲取各方面的知识,并在实践中不断磨练自己!(认真脸)