基于自然语言处理和机器学习的文本分类note1

基于自然语言处理和机器学习的文本分类note1

先行条件:有高速的计算机,先进的体系结构,精湛的制作工艺,高速的处理器,延迟的不断减少,带宽容量不断增大,成本不断降低的内存;信息的存储有海量高保真的各种存储设备。

应用场景:图像处理技术帮助医务人从医学影像中获得更多有价值的知识帮助诊断,数据挖掘在金融领域帮助从业人员从已有的股票数据中获得某种模式,分析影响走势的因素等等。

文本分类是文本自动分类(ATC Automated Text Classification)的简称,是指用计算机程序自动确定指定文档和预先指定类别的隶属关系。比如指定一篇文档属于体育类别,或者属于有音乐类别,政治类别等预先设定好的一个或多个类别。

历史上出现了两种研究体系来解决文本分类问题。一种是基于规则的方法,文本分类任务作为一种特殊的专家系统出现。具体而言,就是由专家根据自己的先验知识,制定很多用于分类文本的规则。用此类规则去计算文本应属于的类别。这样的方法显然缺陷很明显,首先在于规则的制定是非常困难和难以检验的,从某种意义来说,这甚至比让专家自己去分类文本代价还大。另一种现在普遍使用的方法是学习的方法。在准备输入学习机器的向量时会结合到自然语言处理的方法,把文本表示成向量。这是机器学习和自然语言处理的一个很好的应用。

在第二种学习的方法中,文本分类一般存在两个阶段完成。第一阶段是文本的处理。把文本表示成第二阶段进行分类计算所需要的向量形式。第二阶段则是对这些代表文本的向量进行分类。

第一阶段三个步骤:1.文本预处理指的是把文本转化为原始特征空间中元素的序列。换句话说,这一步主要的工作就是分词。2.特征降维指的是对在经过预处理的这些序列的词语进行空间进行降维,即减少要用来表示文本的特征的数量,以降低计算的代价同时去掉对于表征文本特征不重要甚至起反作用的词,提高整个分类的效果。3.最后一步就是按照确定的这些特征项的一种度量,计算文本在这些特征上这些度量下的值,最后形成文本的向量。

基于自然语言处理和机器学习的文本分类note1


分享到:


相關文章: