K-Means,机器学习的起点

k均值算法是最古老和最常用的聚类算法之一。鉴于其实施的简单性,这是新ML爱好者的一个很好的起点。作为这篇文章的一部分,我们将回顾这个算法的起源和典型的使用场景。

历史

詹姆斯麦克奎因于1967年首次使用术语“k-means”作为他的论文“Some methods for classification and analysis of multivariate observations”的一部分。标准算法也在贝尔实验室中用作1957年脉冲编码调制技术的一部分。它也由EW Forgy于1965年出版,通常也称为Lloyd-Forgy方法。

什么是K-Means?

聚类是将人口或数据点划分为多个组的任务,使得相同组中的数据点与同一组中的其他数据点比其他组中的数据点更相似。简单来说,目的是隔离具有相似特征的群体并将其分配到群集中。k均值算法的目标是在数据中找到组,其中由变量K表示的组的数量。该算法迭代地工作以基于所提供的特征将每个数据点分配给K个组中的一个。在下面的参考图像中,K = 2,并且从源数据集中识别出两个聚类。

K-Means,机器学习的起点

参考

在数据集上执行k-means的输出是:

  • K质心:从数据集中识别的每个k簇的质心。
  • 标记为完整的数据集以确保将每个数据点分配给其中一个群集。

如何使用K-Means?

k-means通常可以应用于具有较小维数,数字且连续的数据。想想你想要从随机分布的事物集合中制作类似事物组的场景, k-means非常适合这种情况。

以下是k-means的十个有趣用例列表。

1.文件分类

根据标签,主题和文档内容对多个类别的文档进行集群。这是一个非常标准的分类问题,k-means是一种非常适合此目的的算法。需要对文档进行初始处理,以将每个文档表示为向量,并使用术语频率来标识有助于对文档进行分类的常用术语。然后对文档向量进行聚类以帮助识别文档​​组中的相似性。

2.交付商店优化

使用卡车无人机组合优化使用卡车无人机的良好交付过程,以找到最佳发射位置数量和遗传算法,以解决作为旅行商问题的卡车路线。

3.识别犯罪地点

通过与城市特定地区可用犯罪相关的数据,犯罪类别,犯罪区域以及两者之间的关联可以提供对城市或地区内容易犯罪的地区的高质量洞察。

4.客户细分

群集可帮助营销人员改善其客户群,在目标区域工作,并根据购买历史记录,兴趣或活动监控对客户进行细分。电信运营商如何对预付费客户进行集群,以确定在充值,发送短信和浏览互联网方面花费的模式。该分类将有助于公司针对特定广告系列定位特定的客户群。

5.幻想联盟统计分析

分析球员统计数据一直是体育界的关键因素,随着竞争的加剧,机器学习在这里发挥着至关重要的作用。作为一项有趣的练习,如果您想创建一个幻想选秀团队,并希望根据球员统计数据识别类似的球员,那么k-means可能是一个有用的选择。

6.保险欺诈检测

机器学习在欺诈检测中起着至关重要的作用,并且在汽车,医疗保健和保险欺诈检测方面具有众多应用。利用过去关于欺诈性索赔的历史数据,可以基于其与指示欺诈模式的群集的接近度来隔离新的声明。由于保险欺诈可能会对公司造成数百万美元的影响,因此检测欺诈的能力至关重要。

7. 交通数据分析

K-Means,机器学习的起点

公开的Uber乘车信息数据集提供了大量有关交通,运输时间,峰值接送地点等的有价值数据。分析这些数据不仅有助于优步,还有助于深入了解城市交通模式,帮助我们规划未来城市。

8.网络犯罪分子

网络剖析是从个人和团体收集数据以识别重要的共同关系的过程。网络剖析的想法源自犯罪概况,其提供调查部门的信息,以对犯罪现场的犯罪分类进行分类。

9.呼叫记录详细分析

呼叫详细记录(CDR)是电信公司在客户的呼叫,SMS和互联网活动期间捕获的信息。当与客户人口统计一起使用时。了解如何使用无监督的k-means聚类算法将客户活动集中24小时。它用于按小时了解客户的使用情况。

10. IT警报的自动聚类

大型企业IT基础架构技术组件(如网络,存储或数据库)会生成大量警报消息。由于警报消息可能指向操作问题,因此必须手动筛选它们以确定下游进程的优先级。数据聚类可以提供对警报类别和平均修复时间的深入了解,并帮助进行故障预测。

原文参考:https://dzone.com/articles/10-interesting-use-cases-for-the-k-means-algorithm,其中有案例或论文说明,感兴趣的可以学习一下。


分享到:


相關文章: