05.23 技術專欄-數據挖掘實戰總結

2018-05-23 21:56:17 浮生偷閒

內容導讀從統計的角度說哪些數據特徵與待解決目標之間有較大相關性？訓練集中的數據特徵值改變後待解決目標值是否也一樣變化，並且反之亦然？在建模階段，需要準備適合模型訓練的數據。根據模型算法的選擇，可能需要將所有特徵轉換為等價的數值。數據準備過程也可能要求我們估計特徵中的任何缺失值。一種方法是檢測樣本或特徵中的任何異常值。零、引言

此篇文章的初版，是筆者照著kaggle競賽社區中Titanic項目中的兩篇文章實戰後的總結，兩篇文章分別為：

Titanic Data Science Solutions第一篇文章是以Titanic項目為例完完整整的介紹了一遍數據挖掘實戰從理解數據到訓練模型最後提交的整個過程，跟著實現一遍可以很清楚的理解與感知數據挖掘實戰全過程，非常有助於培養實戰的感覺Introduction to Ensembling/Stacking in Python第二篇文章也是一個以Titanic項目為例完整介紹了實戰過程的文章，但是這篇文章的重心在於介紹與實踐數據挖掘的集成算法 — Stacking 算法一、實戰過程及常用方法

0. 理解題目與觀察數據

- 理解題目

接手任何一競賽或者項目的時候，第一件事都是要認真的閱讀題目，充分理解題目的背景，因為每個項目雖然大體上的流程是差不多，但是每一個步驟的實現都會不一樣，例如特徵提取與選擇方面，除去利用數學知識降維或者提取主要特徵之外，還有一個很重要的方面，就是需要理解題目的業務場景，代入背景去思考業務的情況，這種做法可以讓我們事先加強對特徵的理解，方便我們判斷特徵工程過程中的合理性，也可以在一些項目場景中利用其特有的數據特徵來修正這種場景下的模型已達到很好的效果

這種對於業務場景的思考應是貫徹到整個項目實戰過程中的

- 觀察數據

初步題目後，緊接著就是對於數據的觀察和思考，python中利用pandas進行數據的加載和處理非常方便，其中pandas庫中的一些觀察數據的方法有

import pandas as pdtrain_df = pd.read_csv('./data/train.csv')train_df.head()train_df.info()# describe() 用於觀察連續數值特徵train_df.describe()# describe(include=['O']) 用於觀察字符串特徵及非連續值分類特徵train_df.describe(include=['O'])其中describe()是個很有效的描述數據的方法，可以加入percentiles=[.1, .2, .3, .4, .5, .6, .7]這樣的分位參數來將連續數值特徵排序並顯示分位值。描述分類特徵則可以返回特徵值的個數、頻率等值

一般觀察思考數據是結合業務場景的，需要理解什麼樣的場景下會產生這樣的數據，哪些數據特徵與結果存在明顯的對應關係等，在採取合適的操作之前應該有一些我們自己的關於數據的假設，然後在數據中佐證我們的假設

1. 分析數據與特徵工程

We need arrive at following assumptions based on data analysis done so far. We may validate these assumptions further before taking appropriate actions.上句是借用第一篇文章的一句話，也是我們這一部分的思考，數據分析比較多的都是用數據來驗證我們的假想，然後再採取更合適的操作

- 特徵工程部分的工作流程需要解決七個主要目標：

歸類（Classifying）：需要嘗試分類或者歸類我們的樣例，並且去理解分出的不同的類別的含義及其與我們的目標之間的關聯關聯（Correlating）：一種方法是利用訓練數據集中可用的數據特徵（feature）。哪些數據集中的特徵對我們的解決方案目標有顯著作用？從統計的角度說哪些數據特徵與待解決目標之間有較大相關性？訓練集中的數據特徵值改變後待解決目標值是否也一樣變化，並且反之亦然？這些都可以針對給定數據集中的數值特徵和分類特徵進行測試。我們也想要確定各個數據特徵之間的相關性，關聯一些確定的數據特徵可以有效地幫助我們創建、完善或者糾正其他的數據特徵轉化（Converting）：在建模階段，需要準備適合模型訓練的數據。根據模型算法的選擇，可能需要將所有特徵轉換為等價的數值。例如將文本分類值特徵轉換數值特徵完善（Completing）：數據準備過程也可能要求我們估計特徵中的任何缺失值。當沒有缺失值時，模型算法可能效果最好糾正（Correcting）

：我們還可以分析給定的訓練數據集以查找錯誤或可能無法使用的特徵值，並嘗試糾正這些值或排除包含錯誤的樣本。一種方法是檢測樣本或特徵中的任何異常值。如果某項特徵對分析沒有貢獻，或者可能會顯著影響結果，我們也可能會完全放棄該特徵創造（Creating）：我們可以基於現有的特徵或者一系列特徵創造新的數據特徵，且新特徵遵循相關性，轉換成數值和完整性目標圖表（Charting）：根據數據的性質和解決方案目標來選擇正確的可視化圖表和圖表上述的七個方向不僅是特徵工程部分我們需要思考的，也是我們進行數據分析處理的七個角度

所以對應的數據清洗操作就可包含：

Correcting by dropping featuresCreating new feature extracting from existing || Create new feature combining existing featuresConverting a categorical feature || Converting categorical feature to numericCompleting numerical continuous feature || Completing a categorical feature- 數據分析常用的方法有

Analyze by pivoting feature

train_df[['feature1', 'feature2']].groupby(['feature1 or feature2'], as_index=False).mean().sort_values(by='feature1 or feature2', ascending=False)Analyze by visualizing data

# 利用 seaborn 畫圖# sns.barplot | plt.hist | sns.pointplotgrid = sns.FacetGrid(train_df, col='feature1', row='feature2', size=2.2, aspect=1.6)grid.map(plt.hist, 'feature3', alpha=.5, bins=20)grid.add_legend()grid = sns.FacetGrid(train_df, row='Embarked', size=2.2, aspect=1.6)grid.map(sns.pointplot, 'Pclass', 'Survived', 'Sex', palette='deep')grid.add_legend()plt.show()# 特徵值相關性的熱力圖colormap = plt.cm.RdBuplt.figure(figsize=(14,12))plt.title('Correlation of Features', y=1.05, size=15)sns.heatmap(train.astype(float).corr(),linewidths=0.1,vmax=1.0, square=True, cmap=colormap, linecolor='white', annot=True)g = sns.pairplot(train[[u'Survived', u'Pclass', u'Sex', u'Age', u'Parch', u'Fare', u'Embarked', u'FamilySize', u'Title']], hue='Survived', palette = 'seismic',size=1.2,diag_kind = 'kde',diag_kws=dict(shade=True),plot_kws=dict(s=10) )g.set(xticklabels=[])# 利用 plotly 畫圖 # go.Scatter | go.Bar trace = go.Scatter( y = feature_dataframe['Random Forest feature importances'].values, x = feature_dataframe['features'].values, mode='markers', marker=dict( sizemode = 'diameter', sizeref = 1, size = 25,# size= feature_dataframe['AdaBoost feature importances'].values, #color = np.random.randn(500), #set color equal to a variable color = feature_dataframe['Random Forest feature importances'].values, colorscale='Portland', showscale=True ), text = feature_dataframe['features'].values)data = [trace]layout= go.Layout( autosize= True, title= 'Random Forest Feature Importance', hovermode= 'closest',# xaxis= dict(# title= 'Pop',# ticklen= 5,# zeroline= False,# gridwidth= 2,# ), yaxis=dict( title= 'Feature Importance', ticklen= 5, gridwidth= 2 ), showlegend= False)fig = go.Figure(data=data, layout=layout)py.iplot(fig,filename='scatter2010')# 用 plotly 畫熱力圖data = [ go.Heatmap( z= base_predictions_train.astype(float).corr().values , x=base_predictions_train.columns.values, y= base_predictions_train.columns.values, colorscale='Viridis', showscale=True, reversescale = True )]py.iplot(data, filename='labelled-heatmap')2. 模型訓練與預測

這裡是對於數據挖掘算法的選擇，一般分類用的算法包括：

Logistic RegressionKNN or k-Nearest NeighborsSupport Vector MachinesNaive Bayes classifierDecision TreeRandom ForrestXgboost- Stacking 算法

此處額外需要講述一種集成算法 —Stacking 集成算法，以兩層Stacking 算法為例：

第一層，可以挑選 4 種或 5 種分類算法，記為model_a、model_b、model_c、model_d及model_e

對訓練數據進行訓練，此時就需要注意，在Stacking算法中，對訓練數據的模型訓練需要用到 K-折交叉驗證 方法以 5-折交叉驗證 為例：

首先假設我們有 m * n維度的訓練數據train_set以及k * w維度的測試數據test_set，把train_set分為5份，取出其中的 4 份作為新的(4/5)m * n維度的訓練數據記為tr_set，另一份則作為臨時的(1/5)m * n維度的測試數據記為te_set，假設模型model_a，利用tr_set對model_a進行訓練，訓練好的模型來預測餘下的一份te_set，得到的結果為(1/5)m * 1維度，用一種m * 1維度的數據結構model_list_a中的一部分記錄下來，然後繼續用此時的model_a預測全部的測試數據，得到結果model_a_tmp_1

因為是 **5-折 **交叉驗證，所以這個過程會重複五遍，即model_a模型會被不同的(4/5)m * n維度的訓練數據訓練五遍，最終的model_list_a裡保存的則是model_a對於所有訓練數據的預測值，每一次的重複又會產生不同的model_a_tmp_(2,3,4,5)，將這些model_a_tmp相加求平均得model_a_test

而又因為我們選擇了五個訓練模型，所以對於model_b、model_c、model_d及model_e四個模型，我們同樣會各訓練五遍，也就自然會產生model_list_b，model_list_c，model_list_d及model_list_e，分別存儲的是四個模型對於全部訓練數據的預測值，還會產生每個模型的對於測試數據test_set的平均預測結果 model_b_test、model_c_test、model_d_test及model_e_test

然後將得到的結果拼接，如下代碼實現：

x_train = np.concatenate(( model_list_a, model_list_b, model_list_c, model_list_d, model_list_e), axis=1)x_test = np.concatenate(( model_a_test, model_b_test, model_c_test, model_d_test, model_e_test), axis=1)此時得到的x_train的數據結構可能是這樣的

屏幕快照 2018-05-21 下午11.06.43.png

我們就是利用這個 x_train 與 x_test 進行 stacking 算法的第二層訓練，例如利用xgboost算法進行訓練，如下：

gbm = xgb.XGBClassifier( #learning_rate = 0.02, n_estimators= 2000, max_depth= 4, min_child_weight= 2, #gamma=1, gamma=0.9, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread= -1, scale_pos_weight=1).fit(x_train, y_train)predictions = gbm.predict(x_test)則此時得到的predictions就是我們利用Stacking算法集成了很多種基礎算法得到的最終結果

這個過程中有一個難點就是關於每個模型利用 k-折交叉驗證 的思想進行的 k 次重複訓練，實現代碼如下：

# Some useful parameters which will come in handy later onntrain = train.shape[0]ntest = test.shape[0]SEED = 0 # for reproducibilityNFOLDS = 5 # set folds for out-of-fold predictionkf = KFold(ntrain, n_folds= NFOLDS, random_state=SEED)def get_oof(clf, x_train, y_train, x_test): oof_train = np.zeros((ntrain,)) oof_test = np.zeros((ntest,)) oof_test_skf = np.empty((NFOLDS, ntest)) for i, (train_index, test_index) in enumerate(kf): x_tr = x_train[train_index] y_tr = y_train[train_index] x_te = x_train[test_index] clf.train(x_tr, y_tr) oof_train[test_index] = clf.predict(x_te) oof_test_skf[i, :] = clf.predict(x_test) oof_test[:] = oof_test_skf.mean(axis=0) return oof_train.reshape(-1, 1), oof_test.reshape(-1, 1)此外推薦閱讀數據比賽大殺器----模型融合(stacking&blending)，並且會總結一些其它重要的算法，此處挖坑GBDT、xgboost

分享到:

閱讀更多 浮生偷閒 的文章

關鍵字: 數據結構數學實戰

分佈式服務架構精講pdf文檔：原理+設計+實戰，（收藏再看）

實戰-使用 Cobbler 定製化安裝指定系統

【SpringBoot】JPA接入Elasticsearch6.3.2 實戰

Serverless 實戰：通過 Serverless 架構實現監控告警

由淺入深剖析MySQL：面試+實戰+大綱，成功從青銅晉級王者最全pdf

Google又更新了：實戰 MergeAdapte

實戰：tcpdump抓包分析三次握手四次揮手

實戰：如何使用CSS3 Cubic-Bezier創建鏈接懸停動畫效果

【實戰】從零開始使用JavaScript製作自己的命令行(CLI工具)

Golang 入門系列（七）整合Redis詳解，實戰！

Golang 入門系列（七）整合Redis詳解，實戰

深入前端tree優化渲染速度從14.65s到0.49s【實戰】

2 鏡像的存儲驅動與 Dockerfile 實戰

SpringBoot 快速集成 Elasticsearch 實戰

【SpringBoot基礎系列-實戰】如何指定 bean 最先加載(應用篇)

「實戰」華為MSTP原理及案例配置詳解

最全spring套裝：spring學習指南+實戰+源碼解析+架構與設計原理

03.06 Arthas 實戰，助你解決同名類依賴衝突問題

03.01 別人家的 InfluxDB 實戰 + 源碼剖析

03.01 「實戰」如何根據自己業務自定義配置Topshelf 服務

02.25 實戰-使用 Cobbler 安裝一臺 CentOS 主機

Flask 實戰：如何從零開發“知乎”

SpringBoot集成Elasticsearch7.5 實戰

實戰：徹底搞定 SpringBoot 整合 Kafka

「實戰」助力數據庫開發之接口篇

「C++實戰」機房預約系統（下）

Serverless 實戰——Funcraft + OSS + ROS 進行 CI

01.02 Spring Boot 實戰：如何自定義 Servlet Filter

Spring Cloud Alibaba 實戰(八)

11.29 實戰：使用 Go 打造另一款簡單實用的 ORM

「實戰」IPv6地址基礎配置，一分鐘瞭解下

CIFAR10+卷積神經網絡+TensorBoard 實戰

「實戰」三層交換機的基本功能實現VLAN之間的通信，一分鐘瞭解下

Spring Boot 2 實戰：自定義啟動運行邏輯

「技術乾貨」師傅說不會寫shell腳本的網安不是一個好黑客，實戰

Knative 實戰：如何在 Knative 中配置自定義域名及路由規則

實戰：利用re模塊爬取淘寶商品信息

10.22 黑客“實戰”內容之Redis未授權訪問漏洞復現

「Prometheus系列」實戰—Prometheus + Grafana——Nginx 監控

實戰--MS17_010滲透內網主機

不做生意，也可以搭建個商城系統玩玩：Linux 實戰

實戰：用Python實現隨機森林

Spring Boot 實戰

實戰：用python實現簡單線性回歸！

實戰-MySQL定時進行全量與增量備份

shiro自定義realm——實戰

06.25 druid中如何從本地批(batch)導入與從hdfs 批導入數據實戰

實戰：基於 docker 的 HA-hadoop 集羣搭建

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"