自然語言處理-第九期-什麼是Topic

背景

自然語言處理-第九期-什麼是Topic

上一期提到了Sentiment Analysis的應用場景,其中一個非常重要的環節是提取文本中的特徵。 我找到的大部分特徵提取(非監督)都是使用的Topic Model。所以本期將初步涉及我對Topic Model的學習和理解。

As usual,仍然會以問題的方式來引導整個文章的思路

什麼是Topic

這個最基本的問題,對於Topic Model 理解至關重要。

比如上一期的例子“小米手機電池一般”,那麼可能電池就是我們的特徵或則topic。這是基於人類對文字理解的結果。我可以理解Topic不是形容詞“一般”,但是為什麼topic不是 小米呢?為什麼不是手機呢? 其實能夠看出,就算是從人類理解文字的角度,也是有模糊區域的。那麼對於計算機,我們知道每個詞都是一個個向量(參照第三期)。這個時候判斷Topic 就更困難了。 並且如果是存在大量文本數據的情況下,如何找到Topic呢?


既然分析的是文本或者文章。讓我們回顧一下文章的寫作過程。假設,我要寫一篇關於“健身”的文章。我們構思一下,此文章可能會包含以下三個主題:1. 健身的必要性 2. 器材的運用方法 3. 健身與飲食。 這只是個大框架,當然每個主題會有自己的論點,論據,或者換句話說:每個主題有自己的很多單詞。

當我們完成這篇關於“健身”的文章之後,我們可以從三個層面來看待這篇文章:文檔層面、主題(topic)層面、單詞層面。文檔層面,因為是個例子,所以只有一篇文章;主題層面,我們在構思文章的時候,設立了三個主題;單詞層面,在議論每個主題時,我們會使用到不同的論據和單詞。當我們回顧這篇文章的時候,可能會發現以下幾個事實:

  • 雖然我們已經設立了三個主題,但是該主題可能不會直接出現在文章中。如論述健身必要性時,可能用健身的優缺點,舉例,然後論證健身是非常好的。 “必要性”這個單詞可能完全不會出現;
  • 每篇文章都有自己的側重點,可能該篇“健身”文章50%放在必要性上,30%放在器材,另外20%放在健身與飲食;
  • 不同主題我們會運用一些獨特的單詞。比如在將健身器材部分非常可能出現“跑步機”、“龍門架”、“橢圓機”等等。而這些單詞在其他主題不太可能出現;在講飲食的時候,我們可能會提及“蛋白粉”、“雞胸肉”、“飲食控制”等等。

都是九年義務過來的,我相信以上過程大家都很熟悉。OK,神奇的時刻來了。將

上述過程逆轉。大家反向思考下,當你直接看到一篇完整的“健身”的文章的時候,我們如何判斷其主題的呢?是不是能找到一些規律呢?


我相信通過上述的例子,大家可能已經有觸碰到一些東西。再回到我們的問題,什麼是主題(topic)??我自己個人的思考是,對於計算機,Topic是一個Pattern(規律),而Topic Model所做的就是通過某種算法尋找這個Pattern。首先,文章裡的單詞並不是隨機分佈並且隨機產生的;其次,通過上面那個例子大家可以知道其中是有規律的。 再用下上面這個例子,一個很明顯的點就是單詞分佈存在規律。三個主題中都可能出現“健身”和一些形容詞。但是“蛋白粉”、“雞胸肉”、“飲食控制”這種詞的分佈就完全是有規律的了。而Topic Model也是通過不同的算法來找尋這其中的規律。

那接著上面“蛋白粉”、“雞胸肉”、“飲食控制”的例子。開個腦洞,如果最後計算機的topic model給出的是三個list:【雞胸肉,蛋白粉,飲食控制】、【跑步機,橢圓機,龍門架】、【減肥,體重下降,精神狀態】。那麼,我們也能大概知道每個詞背後的主題是什麼了。所以換句話說,我們可以將Topic Model 看待為一個Cluster問題。而我們要做的就是將一些特徵明顯的詞抓取出來。當然這只是一種思路而已,一種值得大家從概念上思考的一種思路。

總結下

大家可以想象下,對於一個文檔來說,Topic是一個虛無飄渺的東西。而我們要找的就是這麼個虛無縹緲的東西。那Topic到底是什麼呢?Topic代表著文本背後的Pattern。當然對於計算機來說,任何東西都是Pattern,這可能是一句廢話。但是挖掘單詞分佈的規律,挖掘文本的規律,而這個規律就是Topic。 不同的算法只是不同的方式來找尋和呈現該規律。

下期預告

本期花了一整期來解釋什麼是Topic? 一方面是這個確實重要,另一方面是我確實想了很久才想清楚,一頭霧水了很久。也是晚上Google,無意中碰到一個Generative 逆向的東西,才大概有了點概念。寫上面這個例子的過程的同時,也讓我對這個概念更清晰了一點。希望對大家有幫助,有問題的朋友也可以留言,大家一起探討。

最近也看了下LSA,LDA,LDA2vec,Intent 這些算法,背後的數學都很費腦子。我將跳過Math部分,直接將算法思路及應用部分。後續將給大家帶來。


分享到:


相關文章: