06.06 如何提取關鍵詞:TF-IDF

01

TF-IDF主要做什麼?

文本分類中大都用到TF-IDF技術,比如扔給我們1篇新浪網推送的消息,讓機器判斷下屬於新聞類,還是財經類,還是體育類,還是娛樂類;再比如,今日頭條推送的1篇消息,如何提取出裡面的關鍵詞彙,以此推薦給符合我們胃口的文章。

02

TF-IDF主要思想

TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率 TF 高,並且在其他文章中很少出現(IDF值大),則認為此詞或者短語具有很好的類別區分能力,適合用來分類。


分享到:


相關文章: