以扶搖爲例:如何使用Python繪製詞雲?

Python語言一直被稱頌為很好學的一門編程語言,本文主要聊聊Python學習的一些感觸,再以扶搖為例,談談如何使用Python繪製詞雲。

以扶摇为例:如何使用Python绘制词云?

現在隨著更多有企業的產品經理職位對於數據分析能力方面有更多要求,產品經理也隨之需要學習數據分析的思維路線和數據分析的工具。數據分析的工具主要有:操作數據庫的SQL語句、Excel、新進網紅語言Python。

Python語言一直被稱頌為很好學的一門編程語言,本人在研讀一本入門書籍後,的確可以上手寫一些代碼文件,這裡使用Python做一做《扶搖皇后》小說的詞雲圖,每一句代碼上面即是對這句代碼的註釋,解釋語句的意思,之後順帶聊一聊我對Python學習的感觸。

前言說明

至於為什麼是詞雲圖呢?

主要出於2點:

  1. 本人初次接觸就很愛詞雲圖,看起來是裝逼利器,一直有使用Python做爬蟲和詞雲的念頭;
  2. “詞雲”就是對網絡文本中出現頻率較高的“關鍵詞”予以視覺上的突出,形成“關鍵詞雲層”或“關鍵詞渲染”,從而過濾掉大量的文本信息,使瀏覽網頁者只要一眼掃過文本就可以領略文本的主旨。(解釋來自百度百科,“詞雲”對於文本分析還是很重要的)

如果希望能夠看懂代碼,那麼需要具備:

  1. 瞭解Python語言的語法結構;
  2. 瞭解Python語言的標準包、第三方包的區別;
  3. Python代碼基本是英文,意思一定程度上代表了它要做的事,懂英文,有代碼感覺。

如果希望能夠拿來做練習,那麼需要具備:

  1. 你的電腦已經安裝了Python;
  2. 你對於Python已經入門,需要拿例子做練習;
  3. 你能夠熟練使用Python帶的pip安裝各種第三方包;
  4. 安裝了順手的代碼編輯器,能夠方便碼代碼;
  5. 下載扶搖小說txt文件。

示例環境

電腦系統:Window10

Python版本:Python3.7(Python2和Python3差別會比較大,很多語句經過淘汰變更,所以儘量使用新版本)

代碼編輯器:Sublime Text3

實例正文

以下截圖為代碼實例(這裡放截圖,如果你希望熟練代碼,最好是自己手動敲,培養代碼感情):

以扶摇为例:如何使用Python绘制词云?
以扶摇为例:如何使用Python绘制词云?以扶摇为例:如何使用Python绘制词云?

例子中使用的扶搖圖片,如下(圖片從某度上搜索):

這裡需要注意的是,圖片需要是白色背景,方便代碼識別。這個圖片是用PS去掉背景的,看著稍微糙一些。

以扶摇为例:如何使用Python绘制词云?

例子中使用WordCloud的fitwords函數,根據詞頻繪製圖片,取排名前1000個詞,效果圖如下:

以扶摇为例:如何使用Python绘制词云?

從詞雲圖中也可以看出了,主角是扶搖無疑,接下來是兩個大大的“長孫”和“無極”,一個小的“元昭詡”,男主子位置穩固。“北野”、“宗越”、“雲痕”等人物的名字大小都代表了在小說中出現的次數與分量,其中男主子寵物“元寶”絲毫不落下風,儼然仗著自己男一號萌寵的身份和可耐的形象力壓群雄。

其他的詞,大家也可以分析一番,像“眼神”、“目光”、“微笑”、“輕輕”等詞很容易讓人再次聯想到劇中的浪漫情節,bulabula…

我的感觸

在做這個實例的時候,是找的網絡上的示例看著做的,但是代碼並非直接拿過來就可以使用,在本地會出現不同的錯誤,網絡上的示例代碼本身也有小部分缺失,這時候需要根據bug的提示錯誤一邊某度一邊根據代碼感覺進行更改試驗調試,最終出來結果。

代碼的神奇之處還在於:同樣的代碼換了個環境可能就出現不知名問題,所以要有耐心、懷著期待完成你自己的作品。

好了,實例到這裡,那麼此時本人對於Python的認識是怎麼樣的呢?真的是一部分人所說的“數據分析從入門到放棄”嗎?

其實這是因人而異的,看你的目標和方法、希望掌握的程度了:

  1. Python入門還算比較容易,入門之後的深鑽就需要下大功夫了;
  2. Pyhton很受歡迎,除了自帶的標準庫之外,還有眾多第三方包,適用於不同場景,如果只是做數據分析的話,抓住其中的重點來看:numpy、pandas、matplotlib,其他的包用到的時候某度就好了;
  3. 語言功能很強大,本次實例中除去註釋之後,真正用的語句並不多,一個包提供的函數就能夠實現酷炫能力;
  4. Python學習的重難點是:第三方包眾多、函數眾多、不同函數參數不同,各個函數的作用與用法都需要琢磨理解,根據自己的需求找到使用的函數;
  5. 學習Pyhton要有好的心態,有目標地學,入門、掌握學習方法、根據實際場景運用;

對於數據分析,Python只是一個很重要的工具,有些情況下需要掌握,但數據分析最重要的還是思路和業務使用,根據用途使用工具,不能劍走偏鋒,只是掌握了工具而沒有思路理論支持的話,很容易就從產品經理學成數據分析師了。

在數據分析思路與數據分析工具之間一定要找一個很好的平衡點,讓我們在產品路上一起努力吧。

題圖來自 Pixabay,基於 CC0 協議


分享到:


相關文章: