Python模塊Wordcloud,手把手教你生成詞雲圖

wordcloud是Python擴展庫中一種將詞語用圖片表達出來的一種形式,通過詞雲生成的圖片,我們可以更加直觀的看出某篇文章的故事梗概。

首先貼出一張詞雲圖(以哈利波特小說為例):

Python模塊Wordcloud,手把手教你生成詞雲圖

在生成詞雲圖之前,首先要做一些準備工作

1.安裝結巴分詞庫

<code>pip install jieba
/<code>

Python模塊Wordcloud,手把手教你生成詞雲圖

Python中的分詞模塊有很多,他們的功能也都是大同小異,我們安裝的結巴分詞 是當前使用的最多的類型。

下面我來簡單介紹一下結巴分詞的用法

結巴分詞的分詞模式分為三種:

(1)全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題

(2)精確模式:將句子最精確地切開,適合文本分析

(3)搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞

下面用一個簡單的例子來看一下三種模式的分詞區別:

<code> 1 import jieba
2
3 # 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題
4 text = "哈利波特是一常優秀的文學作品"
5 seg_list = jieba.cut(text, cut_all=True)
6 print(u"[全模式]: ", "/ ".join(seg_list))
7
8 # 精確模式:將句子最精確地切開,適合文本分析

9 seg_list = jieba.cut(text, cut_all=False)
10 print(u"[精確模式]: ", "/ ".join(seg_list))
11
12 # 默認是精確模式
13 seg_list = jieba.cut(text)
14 print(u"[默認模式]: ", "/ ".join(seg_list))
15
16 # 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞
17 seg_list = jieba.cut_for_search(text)
18 print(u"[搜索引擎模式]: ", "/ ".join(seg_list))
/<code>

下面是對這句話的分詞方式:

Python模塊Wordcloud,手把手教你生成詞雲圖

通過這三種分詞模式可以看出,這些分詞模式並沒有很好的劃分出“哈利波特”這個專有名詞,這是因為在結巴分詞的字典中並沒有記錄這個名詞,所以需要我們手動添加自定義字典

添加自定義字典:找一個方便引用的位置 (下圖的路徑是我安裝的位置),新建文本文檔(後綴名為.txt),將想添加的詞輸入進去(注意輸入格式),保存並退出

Python模塊Wordcloud,手把手教你生成詞雲圖

在上面的代碼中加入自定義字典的路徑,再點擊運行

<code>jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")
/<code>

分詞結果,可以看出“哈利波特”這個詞已經被識別出來了

Python模塊Wordcloud,手把手教你生成詞雲圖

結巴分詞還有另一個禁用詞的輸出結果

<code> 1 stopwords = {}.fromkeys(['優秀', '文學作品']) 

2
3 #添加禁用詞之後
4 seg_list = jieba.cut(text)
5 final = ''
6 for seg in seg_list:
7 if seg not in stopwords:
8 final += seg
9 seg_list_new = jieba.cut(final)
10 print(u"[切割之後]: ", "/ ".join(seg_list_new))
/<code>

可以看到輸出結果中並沒有“優秀”和“文學作品”兩個詞

Python模塊Wordcloud,手把手教你生成詞雲圖

結巴分詞還有很多比較複雜的操作,具體的可以去官網查看,我就不再過多的贅述了

下面我們正式開始詞雲的製作

首先下載模塊,這裡我所使用的環境是Anaconda,由於Anaconda中包含很多常用的擴展包,所以這裡只需要下載wordcloud。若使用的環境不是Anaconda,則另需安裝numpy和PIL模塊

<code>pip install wordcloud
/<code>

Python模塊Wordcloud,手把手教你生成詞雲圖

然後我們需要找一篇文章並使用結巴分詞將文章分成詞語的形式

<code>1 # 分詞模塊
2 def cut(text):
3 # 選擇分詞模式
4 word_list = jieba.cut(text,cut_all= True)
5 # 分詞後在單獨個體之間加上空格
6 result = " ".join(word_list)
7 # 返回分詞結果
8 return result
/<code>

這裡我在當前文件夾下創建了一個文本文檔“xiaoshuo.txt”,並複製了一章的小說作為詞雲的主體文字

使用代碼控制,打開並讀取小說的內容

<code>1 #導入文本文件,進行分詞,製作詞雲
2 with open("xiaoshuo.txt") as fp:
3 text = fp.read()
4 # 將讀取的中文文檔進行分詞
5 text = cut(text)
/<code>

在網上找到一張白色背景的圖片下載到當前文件夾,作為詞雲的背景圖(若不指定圖片,則默認生成矩形詞雲)

<code>#設置詞雲形狀,若設置了詞雲的形狀,生成的詞雲與圖片保持一致,後面設置的寬度和高度將默認無效
mask = np.array(image.open("monkey.jpeg"))

/<code>

接下來可以根據喜好來定義詞雲的顏色、輪廓等參數 下面為常用的參數設置方法

font_path : "字體路徑"詞雲的字體樣式,若要輸出中文,則跟隨中文的字體width = n畫布寬度,默認為400像素height = n畫布高度,默認為400像素scale = n按比例放大或縮小畫布min_font_size = n設置最小的字體大小max_font_size = n設置最大的字體大小stopwords = 'words'設置要屏蔽的詞語background_color = ''color設置背景板顏色relative_scaling = n設置字體大小與詞頻的關聯性contour_width = n設置輪廓寬度contour_color = 'color'設置輪廓顏


完整代碼

<code> 1 #導入詞雲庫
2 from wordcloud import WordCloud
3 #導入圖像處理庫
4 import PIL.Image as image
5 #導入數據處理庫
6 import numpy as np
7 #導入結巴分詞庫
8 import jieba
9
10 # 分詞模塊
11 def cut(text):
12 # 選擇分詞模式
13 word_list = jieba.cut(text,cut_all= True)
14 # 分詞後在單獨個體之間加上空格
15 result = " ".join(word_list)
16 return result
17

18 #導入文本文件,進行分詞,製作詞雲
19 with open("xiaoshuo.txt") as fp:
20 text = fp.read()
21 # 將讀取的中文文檔進行分詞
22 text = cut(text)
23 #設置詞雲形狀
24 mask = np.array(image.open("monkey.jpeg"))
25 #自定義詞雲
26 wordcloud = WordCloud(
27 # 遮罩層,除白色背景外,其餘圖層全部繪製(之前設置的寬高無效)
28 mask=mask,
29 #默認黑色背景,更改為白色
30 background_color='#FFFFFF',
31 #按照比例擴大或縮小畫布
32 scale=1,
33 # 若想生成中文字體,需添加中文字體路徑
34 font_path="/usr/share/fonts/bb5828/逐浪雅宋體.otf"
35 ).generate(text)
36 #返回對象
37 image_produce = wordcloud.to_image()
38 #保存圖片
39 wordcloud.to_file("new_wordcloud.jpg")
40 #顯示圖像
41 image_produce.show()
/<code>

注:若想要生成圖片樣式的詞雲圖,找到的圖片背景必須為白色,或者使用Photoshop摳圖替換成白色背景,否則生成的詞云為矩形

我的詞雲原圖:

Python模塊Wordcloud,手把手教你生成詞雲圖

生成的詞雲圖:

Python模塊Wordcloud,手把手教你生成詞雲圖


分享到:


相關文章: