文本特徵提取,轉換成詞向量矩陣

文本特徵提取,轉換成詞向量矩陣

提取文本的特徵- TF-IDF

如果我們要對一篇文本來做分析,就需要我們使用一些方法來提取文本中隱含的特徵了。也就是說,模型本省是無法識別整篇文本在講什麼,有什麼特徵,需要我們人為地去提取特徵,將文本轉換成計算機能讀懂的數字與向量的表徵,才能進入下一步的建模。

TF-IDF(term frequency–inverse document frequency)是一種用於信息檢索與文本挖掘的常用加權技術。比較容易理解的一個應用場景是當我們手頭有一些文章時,我們希望計算機能夠自動地進行關鍵詞提取。而TF-IDF就是可以幫我們完成這項任務的一種統計方法。它能夠用於評估一個詞語對於一個文集或一個語料庫中的其中一份文檔的重要程度。

在一份給定的文件裡,詞頻 (TF) 指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被歸一化,以防止它偏向長的文件。

逆向文件頻率 (IDF) 是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。

TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TF-IDF實際上是:TF * IDF

工具:jieba, TfidfTransformer, CountVectorizer

文本特徵提取,轉換成詞向量矩陣

Jieba:分詞工具

CountVectorizer:計算詞頻

TfidfTransformer: 根據詞頻得到tf-idf特徵值

具體代碼如下:

文本特徵提取,轉換成詞向量矩陣

注:使用map函數生成可迭代對象時為了防止大文本文件佔用過多內存

生成結果如下:生成的詞頻矩陣,可以用來做文本分類,情感分析

文本特徵提取,轉換成詞向量矩陣


分享到:


相關文章: