kaggle | 商城客戶細分數據_ _ 頭條網

@Author：BY Runsen

@Date：2019年06月09日

無聊看下kaggle，發現了一個不錯的數據集

您有超市購物中心和會員卡，您可以獲得有關客戶的一些基本數據，如客戶ID，年齡，性別，年收入和支出分數。消費分數是您根據定義的參數（如客戶行為和購買數據）分配給客戶的分數。

問題陳述您擁有購物中心並希望瞭解哪些客戶可以輕鬆融合目標客戶，以便可以向營銷團隊提供意見並相應地制定策略

數據集是要根據最後兩個特徵，來判斷是否給會員卡，在生活挺常見的,典型的無監督學習，用k-means他們分類

<code>import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) import os print(os.listdir("../input")) /<code>

<code>['Mall_Customers.csv'] /<code>

<code>import numpy as np import matplotlib.pyplot as plt import pandas as pd import warnings import seaborn as sns from sklearn.preprocessing import LabelEncoder warnings.filterwarnings('ignore') /<code>

<code>data=pd.read_csv('../input/Mall_Customers.csv') data.head() /<code>

<code>X=data.iloc[:,[3,4]].values # 將年度收入和支出分數作為特徵 /<code>

求最優聚類數

<code>from sklearn.cluster import KMeans wcss=[] for i in range(1,11): kmeans=KMeans(n_clusters=i,init='k-means++',max_iter=300,n_init=10,random_state=0) kmeans.fit(X) wcss.append(kmeans.inertia_) plt.plot(range(1,11),wcss) plt.title('The Elbow Method') plt.xlabel('Number of clusters') plt.ylabel('WCSS') plt.show() /<code>

看出就是5，因為5是折點

<code>kmeans=KMeans(n_clusters=5,init='k-means++',max_iter=300,n_init=10,random_state=0) y_kmeans=kmeans.fit_predict(X) /<code>

<code>plt.scatter(X[y_kmeans==0,0],X[y_kmeans==0,1],s=100,c='magenta',label='Careful') plt.scatter(X[y_kmeans==1,0],X[y_kmeans==1,1],s=100,c='yellow',label='Standard') plt.scatter(X[y_kmeans==2,0],X[y_kmeans==2,1],s=100,c='green',label='Target') plt.scatter(X[y_kmeans==3,0],X[y_kmeans==3,1],s=100,c='cyan',label='Careless') plt.scatter(X[y_kmeans==4,0],X[y_kmeans==4,1],s=100,c='burlywood',label='Sensible') plt.scatter(kmeans.cluster_centers_[:,0],kmeans.cluster_centers_[:,1],s=300,c='red',label='Centroids') plt.title('Cluster of Clients') plt.xlabel('Annual Income (k$)') plt.ylabel('Spending Score (1-100)') plt.legend() plt.show /<code>

五個分類

<code>Cluster 1- High income low spending =Careful Cluster 2- Medium income medium spending =Standard Cluster 3- High Income and high spending =Target Cluster 4- Low Income and high spending =Careless Cluster 5- Low Income and low spending =Sensible /<code>

比較男和女

<code>sns.lmplot(x='Age', y='Spending Score (1-100)', data=data,fit_reg=True,hue='Gender') plt.show() /<code>

年齡分佈

<code>data.sort_values(['Age']) plt.figure(figsize=(10,8)) plt.bar(data['Age'],data['Spending Score (1-100)']) plt.xlabel('Age') plt.ylabel('Spending Score') plt.show() /<code>

男人和女人花在20多歲和30多歲的時候，因為在以後的階段，消費變小了。

男變為1，女0

<code>label_encoder=LabelEncoder() integer_encoded=label_encoder.fit_transform(data.iloc[:,1].values) data['Gender']=integer_encoded data.head() /<code>

<code>hm=sns.heatmap(data.iloc[:,1:5].corr(), annot = True, linewidths=.5, cmap='Blues') hm.set_title(label='Heatmap of dataset', fontsize=20) hm plt.ioff() /<code>

看了下其他人的代碼，學習一下

有人分成3類

<code>dataset_1 = data.iloc[:,1:5] dataset_1.head(10) /<code>

<code>results = [] for i in range(1,10): kmeans = KMeans(n_clusters=i, init='k-means++') res = kmeans.fit(dataset_1) results.append(res.score(dataset_1)) plt.plot(range(1,10),results) plt.xlabel('Num Clusters') plt.ylabel('score') plt.title('Elbow Curve') /<code>

應該是無關數據影響了

<code>dataset_2 = dataset[:,3:5] dataset_2.head(10) /<code>

<code>results = [] for i in range(1,10): kmeans = KMeans(n_clusters=i, init='k-means++') res = kmeans.fit(dataset_2) results.append(res.score(dataset_2)) plt.plot(range(1,10),results) plt.xlabel('Num Clusters') plt.ylabel('score') plt.title('Elbow Curve') /<code>

數據集鏈接：

https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python

相關文章:

商城：萬株黃蜀葵開出致富花

商城：乘勝而上立破並舉 推進文明城市創建常態長效機制建設

商城：小額訴訟進“雲間”快速高效解糾紛

2個工具教你在瀏覽器中運行開發notebooks中的python代碼

鬥魚的帶貨野心：從王思聰的牛鋪網到自建“魚購”商城

2018年秋季產品銷量，就看這個商城平臺了

乾貨分享 | 11個數據競賽平臺大盤點，文末還有競賽實例詳解

學起來！趣味、技能和價值兼備的14個數據科學項目的清單

Kaggle競賽神器Facets：快速把控數據分析核心環節

免費贈送 微信商城系統，先到先得~

攜號轉網用戶福音：要攜號轉網福利商城特惠商品上線

做個商城小程序多少錢？這個方法可以讓你更高效的運營小程序！

小程序商城營銷裂變，如何讓客戶幫你做推廣？

微信小程序商城開源項目，Weixin-App-Shop 1.0 版本正式發佈

最年輕的500強！國產科技巨頭用放大招：送錢，不是華為

可視化分析最新Kaggle活躍用戶調查報告

冠軍！現實版韓商言！支付寶「KK 戰隊」戰勝全球 1600 支隊伍

小米商城7款產品1分錢開啟拼團

閃劇學院｜如何在商城創建一個有效的道具

期待已久的摩普商城上線啦

線下實體店的冬天終會過去

漫畫：人偶公主

安森美半導體麥滿權：我為什麼與立創合作“420元器件節”

數據挖掘系列篇（27）：Kaggle 數據挖掘比賽經驗分享

仙迪股份連載六：經銷商返利大幅縮水 伊貝詩翻倍計劃或將落空

要搭建商城平臺 你應該先考慮好這些問題

醉酩意商城系統定製開發

土狗雲商城全力保障“安全可靠好生活”

商城：女子駕車途中突發不適 過路民警緊急送醫救治

資深專家王維強：服務12億用戶的支付寶需要怎樣的安全人才？

上海寧天天吃的「國民包子」居然上市了

商城：文明實踐進山村 志願服務暖民心

歐冶商城寶鋼股份專區：電商智採實現多基地覆蓋！

超多“旅行+”權益！選車就他了

純電or燃油，捷途X70S EV給您新體驗

置換捷途X70S享2000元置換補貼

捷途X90平價銷售7.99萬起 歡迎垂詢

捷途X90店內可試乘試駕 售價7.99萬元起

捷途X90 10萬級中型SUV的國貨之光

十萬左右買輛中型SUV？圓夢大使捷途X70

數據科學的子彈庫-數據集大全

企業做外貿商城網站建設有哪些好處？

怎樣搭建廣東省政府採購網上商城網站？

隔離太無聊？每天一個數據科學項目，數據集都準備好了！

商城：美極了！人間四月花漸去，桐花谷裡花始開

【球經4中4，商城近15紅12】球經解盤：西甲畢爾巴鄂能否乘勝追擊

做便利店B2B採購平臺，這兩點是關鍵

為什麼要參加Kaggle數據科學競賽？

今日頭條被小米商城下架了（有圖）

Brisa&Relucir波琳克琳微商城正式上線

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

商城：乘勝而上立破並舉推進文明城市創建常態長效機制建設

免費贈送微信商城系統，先到先得~

仙迪股份連載六：經銷商返利大幅縮水伊貝詩翻倍計劃或將落空

要搭建商城平臺你應該先考慮好這些問題

商城：女子駕車途中突發不適過路民警緊急送醫救治

商城：文明實踐進山村志願服務暖民心

捷途X90平價銷售7.99萬起歡迎垂詢

捷途X90店內可試乘試駕售價7.99萬元起

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患