03.01 自然語言處理—詞雲圖製作

自然語言處理(NLP)是計算機科學,人工智能,語言學關注計算機和人類(自然)語言之間的相互作用的領域。因此,自然語言處理是與人機交互的領域有關的。

在自然語言處理面臨很多挑戰,包括自然語言理解,因此,自然語言處理涉及人機交互的面積。在NLP諸多挑戰涉及自然語言理解,即計算機源於人為或自然語言輸入的意思,和其他涉及到自然語言生成。

本文作為自然語言處理的一部分,做出好看的詞雲圖一共有七步,下面隨我一起邊欣賞、邊實踐。

一、導入標準庫

conda install jieba

conda install wordcloud

conda install PIL #安裝生成詞雲的依賴包和運行環境

<code>import matplotlib.pyplot as plt     #數學繪圖庫import jieba      #jieba分詞庫from wordcloud import WordCloud,ImageColorGenerator    #詞雲庫from PIL import Image     #圖像處理標準庫import numpy as np       #數據科學計算的核心庫/<code>
自然語言處理—詞雲圖製作

二、讀取文本數據

<code>text = open(r'C:\\Users\\Administrator\\Desktop\\詞雲圖\\詞雲.txt',"r",encoding="utf-8").read()   #讀入txt文本數據print(text)/<code>
自然語言處理—詞雲圖製作

三、使用jieba分詞,將漢語按照語言結構分開

<code>lyrics = jieba.cut(text)  #使用jieba分詞txt = "/".join(lyrics)print(txt)/<code>
自然語言處理—詞雲圖製作

四、自定義背景圖

<code>image = Image.open(r'C:\\\\Users\\\\27342\\\\Desktop\\\\圖片.jpg')  #初始化自定義背景圖graph = np.array(image)      #圖像數據化/<code>
自然語言處理—詞雲圖製作

五、產生詞雲圖

<code>wc = WordCloud(font_path = r"C:\\\\Users\\\\27342\\\\Desktop\\\\微軟雅黑.ttf",background_color='white',max_font_size=80,mask=graph)wc.generate(txt) #導入字體/<code>
自然語言處理—詞雲圖製作

六、設置文字顏色、背景圖顏色

<code>import matplotlib.pyplot as plt     #數學繪圖庫import jieba      #jieba分詞庫from wordcloud import WordCloud,ImageColorGenerator    #詞雲庫from PIL import Image      #圖像處理標準庫import numpy as np   #數據科學計算的核心庫/<code>
自然語言處理—詞雲圖製作

七、顯示圖片

<code>text = open(r'C:\\Users\\Administrator\\Desktop\\詞雲圖\\詞雲.txt',"r",encoding="utf-8").read()  #讀入txt文本數據print(text)/<code>
自然語言處理—詞雲圖製作

更多實用的數據分析知識,請持續關注!


分享到:


相關文章: