如何使用程序自动化提取一篇文章的关键词

场景需求

有一篇文章,不在人工干预下,自动提取关键词。


基本理论

文章的关键词,最初的方法多是使用词语出现的频次(Term Frequency,缩写为TF)作为衡量的标准,但在实际应用过程中会出现一些无关紧要的关键词,如“我、你、他们”,“的”,“是”。


虽然这些毫无意义的助词、代词可以通过停用词来过滤掉,仍然会有一些有意义但不是关键词的干扰词语。那么有没有一种规则可以降低一些非常通用且常见词语的权值,而增加不那么常见词语的权值呢?


因此人们提出了新的规则,逆文档频率(Inverse Document Frequency,缩写为IDF),IDF可以降低一些非常通用且常见词语的权值,而增加不那么常见词语的权值。下面将就如何在一篇文章自动提取关键词做一个项目框架流程图。


思路流程图

如何使用程序自动化提取一篇文章的关键词

图 1:自动提取关键词原理图

计算公式

(1) 计算词频

如何使用程序自动化提取一篇文章的关键词

(2) 计算逆文档频率

如何使用程序自动化提取一篇文章的关键词

(3) 计算tfidf权重

如何使用程序自动化提取一篇文章的关键词

<code>欢迎各位读者朋友们留言一起探讨学习!觉得文章对你有帮助,记得点赞、关注、转发喔!/<code>


分享到:


相關文章: