kaggle | 商城客户细分数据_ _ 頭條網

@Author：BY Runsen

@Date：2019年06月09日

无聊看下kaggle，发现了一个不错的数据集

您有超市购物中心和会员卡，您可以获得有关客户的一些基本数据，如客户ID，年龄，性别，年收入和支出分数。消费分数是您根据定义的参数（如客户行为和购买数据）分配给客户的分数。

问题陈述您拥有购物中心并希望了解哪些客户可以轻松融合目标客户，以便可以向营销团队提供意见并相应地制定策略

数据集是要根据最后两个特征，来判断是否给会员卡，在生活挺常见的,典型的无监督学习，用k-means他们分类

<code>import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) import os print(os.listdir("../input")) /<code>

<code>['Mall_Customers.csv'] /<code>

<code>import numpy as np import matplotlib.pyplot as plt import pandas as pd import warnings import seaborn as sns from sklearn.preprocessing import LabelEncoder warnings.filterwarnings('ignore') /<code>

<code>data=pd.read_csv('../input/Mall_Customers.csv') data.head() /<code>

<code>X=data.iloc[:,[3,4]].values # 将年度收入和支出分数作为特征 /<code>

求最优聚类数

<code>from sklearn.cluster import KMeans wcss=[] for i in range(1,11): kmeans=KMeans(n_clusters=i,init='k-means++',max_iter=300,n_init=10,random_state=0) kmeans.fit(X) wcss.append(kmeans.inertia_) plt.plot(range(1,11),wcss) plt.title('The Elbow Method') plt.xlabel('Number of clusters') plt.ylabel('WCSS') plt.show() /<code>

看出就是5，因为5是折点

<code>kmeans=KMeans(n_clusters=5,init='k-means++',max_iter=300,n_init=10,random_state=0) y_kmeans=kmeans.fit_predict(X) /<code>

<code>plt.scatter(X[y_kmeans==0,0],X[y_kmeans==0,1],s=100,c='magenta',label='Careful') plt.scatter(X[y_kmeans==1,0],X[y_kmeans==1,1],s=100,c='yellow',label='Standard') plt.scatter(X[y_kmeans==2,0],X[y_kmeans==2,1],s=100,c='green',label='Target') plt.scatter(X[y_kmeans==3,0],X[y_kmeans==3,1],s=100,c='cyan',label='Careless') plt.scatter(X[y_kmeans==4,0],X[y_kmeans==4,1],s=100,c='burlywood',label='Sensible') plt.scatter(kmeans.cluster_centers_[:,0],kmeans.cluster_centers_[:,1],s=300,c='red',label='Centroids') plt.title('Cluster of Clients') plt.xlabel('Annual Income (k$)') plt.ylabel('Spending Score (1-100)') plt.legend() plt.show /<code>

五个分类

<code>Cluster 1- High income low spending =Careful Cluster 2- Medium income medium spending =Standard Cluster 3- High Income and high spending =Target Cluster 4- Low Income and high spending =Careless Cluster 5- Low Income and low spending =Sensible /<code>

比较男和女

<code>sns.lmplot(x='Age', y='Spending Score (1-100)', data=data,fit_reg=True,hue='Gender') plt.show() /<code>

年龄分布

<code>data.sort_values(['Age']) plt.figure(figsize=(10,8)) plt.bar(data['Age'],data['Spending Score (1-100)']) plt.xlabel('Age') plt.ylabel('Spending Score') plt.show() /<code>

男人和女人花在20多岁和30多岁的时候，因为在以后的阶段，消费变小了。

男变为1，女0

<code>label_encoder=LabelEncoder() integer_encoded=label_encoder.fit_transform(data.iloc[:,1].values) data['Gender']=integer_encoded data.head() /<code>

<code>hm=sns.heatmap(data.iloc[:,1:5].corr(), annot = True, linewidths=.5, cmap='Blues') hm.set_title(label='Heatmap of dataset', fontsize=20) hm plt.ioff() /<code>

看了下其他人的代码，学习一下

有人分成3类

<code>dataset_1 = data.iloc[:,1:5] dataset_1.head(10) /<code>

<code>results = [] for i in range(1,10): kmeans = KMeans(n_clusters=i, init='k-means++') res = kmeans.fit(dataset_1) results.append(res.score(dataset_1)) plt.plot(range(1,10),results) plt.xlabel('Num Clusters') plt.ylabel('score') plt.title('Elbow Curve') /<code>

应该是无关数据影响了

<code>dataset_2 = dataset[:,3:5] dataset_2.head(10) /<code>

<code>results = [] for i in range(1,10): kmeans = KMeans(n_clusters=i, init='k-means++') res = kmeans.fit(dataset_2) results.append(res.score(dataset_2)) plt.plot(range(1,10),results) plt.xlabel('Num Clusters') plt.ylabel('score') plt.title('Elbow Curve') /<code>

数据集链接：

https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python

相關文章:

商城：万株黄蜀葵开出致富花

商城：乘胜而上立破并举 推进文明城市创建常态长效机制建设

商城：小额诉讼进“云间”快速高效解纠纷

2个工具教你在浏览器中运行开发notebooks中的python代码

斗鱼的带货野心：从王思聪的牛铺网到自建“鱼购”商城

2018年秋季产品销量，就看这个商城平台了

干货分享 | 11个数据竞赛平台大盘点，文末还有竞赛实例详解

学起来！趣味、技能和价值兼备的14个数据科学项目的清单

Kaggle竞赛神器Facets：快速把控数据分析核心环节

免费赠送 微信商城系统，先到先得~

携号转网用户福音：要携号转网福利商城特惠商品上线

做个商城小程序多少钱？这个方法可以让你更高效的运营小程序！

小程序商城营销裂变，如何让客户帮你做推广？

微信小程序商城开源项目，Weixin-App-Shop 1.0 版本正式发布

最年轻的500强！国产科技巨头用放大招：送钱，不是华为

可视化分析最新Kaggle活跃用户调查报告

冠军！现实版韩商言！支付宝「KK 战队」战胜全球 1600 支队伍

小米商城7款产品1分钱开启拼团

闪剧学院｜如何在商城创建一个有效的道具

期待已久的摩普商城上线啦

线下实体店的冬天终会过去

漫画：人偶公主

安森美半导体麦满权：我为什么与立创合作“420元器件节”

数据挖掘系列篇（27）：Kaggle 数据挖掘比赛经验分享

仙迪股份连载六：经销商返利大幅缩水 伊贝诗翻倍计划或将落空

要搭建商城平台 你应该先考虑好这些问题

醉酩意商城系统定制开发

土狗云商城全力保障“安全可靠好生活”

商城：女子驾车途中突发不适 过路民警紧急送医救治

资深专家王维强：服务12亿用户的支付宝需要怎样的安全人才？

上海宁天天吃的「国民包子」居然上市了

商城：文明实践进山村 志愿服务暖民心

欧冶商城宝钢股份专区：电商智采实现多基地覆盖！

超多“旅行+”权益！选车就他了

纯电or燃油，捷途X70S EV给您新体验

置换捷途X70S享2000元置换补贴

捷途X90平价销售7.99万起 欢迎垂询

捷途X90店内可试乘试驾 售价7.99万元起

捷途X90 10万级中型SUV的国货之光

十万左右买辆中型SUV？圆梦大使捷途X70

数据科学的子弹库-数据集大全

企业做外贸商城网站建设有哪些好处？

怎样搭建广东省政府采购网上商城网站？

隔离太无聊？每天一个数据科学项目，数据集都准备好了！

商城：美极了！人间四月花渐去，桐花谷里花始开

【球经4中4，商城近15红12】球经解盘：西甲毕尔巴鄂能否乘胜追击

做便利店B2B采购平台，这两点是关键

为什么要参加Kaggle数据科学竞赛？

今日头条被小米商城下架了（有图）

Brisa&Relucir波琳克琳微商城正式上线

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

商城：乘胜而上立破并举推进文明城市创建常态长效机制建设

免费赠送微信商城系统，先到先得~

仙迪股份连载六：经销商返利大幅缩水伊贝诗翻倍计划或将落空

要搭建商城平台你应该先考虑好这些问题

商城：女子驾车途中突发不适过路民警紧急送医救治

商城：文明实践进山村志愿服务暖民心

捷途X90平价销售7.99万起欢迎垂询

捷途X90店内可试乘试驾售价7.99万元起

应急科普丨“五一” 期间气温回升谨防森林火灾隐患