大數據平台對數據的提取,應做好分類和聚類

文本分類和聚類有什麼區別

大數據平臺對數據的提取,應做好分類和聚類

人和選擇性排序的垃圾

文本分類和聚類有什麼區別

簡單點說:

1)分類是將一篇文章或文本自動識別出來,按照已經定義好的類別進行匹配,確定。

2)聚類就是將一組的文章或文本信息進行相似性的比較,將比較相似的文章或文本信息歸為同一組的技術。

分類和聚類都是將相似對象歸類的過程。

區別是,分類是事先定義好類別,類別數不變。

分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。

聚類則沒有事先預定的類別,類別數不確定。聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成。

分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;

聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文檔文摘、搜索引擎結果後聚類(元搜索)等。

分類(classification )

是找出描述並區分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類。分類技術在數據挖掘中是一項重要任務,目前商業上應用最多。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個類中。

要構造分類器,需要有一個訓練樣本數據集作為輸入。

訓練集由一組數據庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。

一個具體樣本的形式可表示為:

(v1,v2,...,vn;c);

其中vi表示字段值,c表示類別。

分類器的構造方法有統計方法、機器學習方法、神經網絡方法等等。

不同的分類器有不同的特點。

有三種分類器評價或比較尺度:

1)預測準確度;

2)計算複雜度;

3)模型描述的簡潔度。

預測準確度是用得最多的一種比較尺度,特別是對於預測型分類任務。

計算複雜度依賴於具體的實現細節和硬件環境,在數據挖掘中,由於操作對象是巨量的數據,因此空間和時間的複雜度問題將是非常重要的一個環節。

對於描述型的分類任務,模型描述越簡潔越受歡迎。

另外要注意的是,分類的效果一般和數據的特點有關,有的數據噪聲大,有的有空缺值,有的分佈稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。

目前普遍認為不存在某種方法能適合於各種特點的數據。

聚類(clustering)

是指根據“物以類聚”原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數據對象的集合叫做簇,並且對每一個這樣的簇進行描述的過程。

它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。

與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。

其目的旨在發現空間實體的屬性間的函數關係,挖掘的知識用以屬性名為變量的數學方程來表示。

聚類技術正在蓬勃發展,涉及範圍包括數據挖掘、統計學、機器學習、空間數據庫技術、生物學以及市場營銷等領域,聚類分析已經成為數據挖掘研究領域中一個非常活躍的研究課題。

常見的聚類算法包括:

K-均值聚類算法、

K-中心點聚類算法、

CLARANS、

BIRCH、

CLIQUE、

DBSCAN等。


分享到:


相關文章: