文本特征提取,转换成词向量矩阵

文本特征提取,转换成词向量矩阵

提取文本的特征- TF-IDF

如果我们要对一篇文本来做分析,就需要我们使用一些方法来提取文本中隐含的特征了。也就是说,模型本省是无法识别整篇文本在讲什么,有什么特征,需要我们人为地去提取特征,将文本转换成计算机能读懂的数字与向量的表征,才能进入下一步的建模。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。比较容易理解的一个应用场景是当我们手头有一些文章时,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。

在一份给定的文件里,词频 (TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。

逆向文件频率 (IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF * IDF

工具:jieba, TfidfTransformer, CountVectorizer

文本特征提取,转换成词向量矩阵

Jieba:分词工具

CountVectorizer:计算词频

TfidfTransformer: 根据词频得到tf-idf特征值

具体代码如下:

文本特征提取,转换成词向量矩阵

注:使用map函数生成可迭代对象时为了防止大文本文件占用过多内存

生成结果如下:生成的词频矩阵,可以用来做文本分类,情感分析

文本特征提取,转换成词向量矩阵


分享到:


相關文章: