K-Means,機器學習的起點

k均值算法是最古老和最常用的聚類算法之一。鑑於其實施的簡單性,這是新ML愛好者的一個很好的起點。作為這篇文章的一部分,我們將回顧這個算法的起源和典型的使用場景。

歷史

詹姆斯麥克奎因於1967年首次使用術語“k-means”作為他的論文“Some methods for classification and analysis of multivariate observations”的一部分。標準算法也在貝爾實驗室中用作1957年脈衝編碼調製技術的一部分。它也由EW Forgy於1965年出版,通常也稱為Lloyd-Forgy方法。

什麼是K-Means?

聚類是將人口或數據點劃分為多個組的任務,使得相同組中的數據點與同一組中的其他數據點比其他組中的數據點更相似。簡單來說,目的是隔離具有相似特徵的群體並將其分配到群集中。k均值算法的目標是在數據中找到組,其中由變量K表示的組的數量。該算法迭代地工作以基於所提供的特徵將每個數據點分配給K個組中的一個。在下面的參考圖像中,K = 2,並且從源數據集中識別出兩個聚類。

K-Means,機器學習的起點

參考

在數據集上執行k-means的輸出是:

  • K質心:從數據集中識別的每個k簇的質心。
  • 標記為完整的數據集以確保將每個數據點分配給其中一個群集。

如何使用K-Means?

k-means通常可以應用於具有較小維數,數字且連續的數據。想想你想要從隨機分佈的事物集合中製作類似事物組的場景, k-means非常適合這種情況。

以下是k-means的十個有趣用例列表。

1.文件分類

根據標籤,主題和文檔內容對多個類別的文檔進行集群。這是一個非常標準的分類問題,k-means是一種非常適合此目的的算法。需要對文檔進行初始處理,以將每個文檔表示為向量,並使用術語頻率來標識有助於對文檔進行分類的常用術語。然後對文檔向量進行聚類以幫助識別文檔​​組中的相似性。

2.交付商店優化

使用卡車無人機組合優化使用卡車無人機的良好交付過程,以找到最佳發射位置數量和遺傳算法,以解決作為旅行商問題的卡車路線。

3.識別犯罪地點

通過與城市特定地區可用犯罪相關的數據,犯罪類別,犯罪區域以及兩者之間的關聯可以提供對城市或地區內容易犯罪的地區的高質量洞察。

4.客戶細分

群集可幫助營銷人員改善其客戶群,在目標區域工作,並根據購買歷史記錄,興趣或活動監控對客戶進行細分。電信運營商如何對預付費客戶進行集群,以確定在充值,發送短信和瀏覽互聯網方面花費的模式。該分類將有助於公司針對特定廣告系列定位特定的客戶群。

5.幻想聯盟統計分析

分析球員統計數據一直是體育界的關鍵因素,隨著競爭的加劇,機器學習在這裡發揮著至關重要的作用。作為一項有趣的練習,如果您想創建一個幻想選秀團隊,並希望根據球員統計數據識別類似的球員,那麼k-means可能是一個有用的選擇。

6.保險欺詐檢測

機器學習在欺詐檢測中起著至關重要的作用,並且在汽車,醫療保健和保險欺詐檢測方面具有眾多應用。利用過去關於欺詐性索賠的歷史數據,可以基於其與指示欺詐模式的群集的接近度來隔離新的聲明。由於保險欺詐可能會對公司造成數百萬美元的影響,因此檢測欺詐的能力至關重要。

7. 交通數據分析

K-Means,機器學習的起點

公開的Uber乘車信息數據集提供了大量有關交通,運輸時間,峰值接送地點等的有價值數據。分析這些數據不僅有助於優步,還有助於深入瞭解城市交通模式,幫助我們規劃未來城市。

8.網絡犯罪分子

網絡剖析是從個人和團體收集數據以識別重要的共同關係的過程。網絡剖析的想法源自犯罪概況,其提供調查部門的信息,以對犯罪現場的犯罪分類進行分類。

9.呼叫記錄詳細分析

呼叫詳細記錄(CDR)是電信公司在客戶的呼叫,SMS和互聯網活動期間捕獲的信息。當與客戶人口統計一起使用時。瞭解如何使用無監督的k-means聚類算法將客戶活動集中24小時。它用於按小時瞭解客戶的使用情況。

10. IT警報的自動聚類

大型企業IT基礎架構技術組件(如網絡,存儲或數據庫)會生成大量警報消息。由於警報消息可能指向操作問題,因此必須手動篩選它們以確定下游進程的優先級。數據聚類可以提供對警報類別和平均修復時間的深入瞭解,並幫助進行故障預測。

原文參考:https://dzone.com/articles/10-interesting-use-cases-for-the-k-means-algorithm,其中有案例或論文說明,感興趣的可以學習一下。


分享到:


相關文章: