Python快速實戰機器學習之數據預處理

前言

機器學習是如今人工智能時代背景下一個重要的領域,它應用廣泛,如推薦系統,文本分析,圖像識別,語言翻譯等等。要想學通這個大的領域不是一件容易的事情,這個“Python快速實戰機器學習”系列,用Python代碼實踐機器學習裡面的算法,旨在理論和實踐同時進行,快速掌握知識。


Python快速實戰機器學習之數據預處理


本文概要

1、學會用pandas導入數據;

2、學會用matplotlib可視化數據;

3、學會用sklearn給標籤編碼。

4、學會用sklearn劃分數據集。

5、學會用sklearn進行特徵縮放。

導入數據

<code>import pandas as pd/<code>
<code>df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',header=None)/<code>
<code>df.tail()/<code>

我們使用pandas讀取數據,然後通過pandas中的tail方法輸出最後五行數據,看一下Iris數據集格式:

Python快速實戰機器學習之數據預處理


這是一個來自叫做“UCI Machine Learning Repository”數據集。UCI Machine Learning Repository:它是網絡中最古老的數據集源之一,是尋找各種有趣數據集的第一選擇。在這裡,儘管數據集都是用戶自行貢獻的,但清潔程度仍然很高。此外,你可以直接從 UCI Machine Learning Repository 上下載數據,無需註冊。

Python快速實戰機器學習之數據預處理


這個數據集是關於鳶尾花分類的問題,一個150個數據,第一列是編號,第二列到第五列是鳶尾花的各種參數,也叫做“特徵(features)”是我們判斷鳶尾花屬於哪種的依據。最後一列就是鳶尾花的種類。

數據可視化


<code>import numpy as np/<code>
<code>import matplotlib.pyplot as plt/<code>
<code>Y = df.iloc[0:100,4].values/<code>
<code>X = df.iloc[0:100,[0,2]].values/<code>
<code>plt.scatter(X[:50,0], X[:50,1], color='red', marker = 'o', label = 'setosa')/<code>
<code>plt.scatter(X[50:100,0], X[50:100,1], color='blue', marker = 'x', label = 'versicolor')/<code>
<code>plt.xlabel('petal length')/<code>
<code>plt.ylabel('sepal length')/<code>
<code>plt.legend(loc='upper left')/<code>
<code>plt.show()/<code>

我們抽取出前100條樣本,這正好是Setosa(前五十個數據)和Versicolor(後五十個數據)對應的樣本,我們將Versicolor對應的數據作為類別1,Setosa對應的作為-1。對於特徵,我們抽取出sepal length和petal length兩維度特徵,然後用散點圖對數據進行可視化:

Python快速實戰機器學習之數據預處理


標籤編碼

<code>from sklearn.preprocessing import LabelEncoder/<code>
<code>labelencoder_Y = LabelEncoder()/<code>
<code>Y =  labelencoder_Y.fit_transform(Y)/<code>

我們使用sklearn中的preprocessing模塊中LabelEncoder函數給鳶尾花的種類Y編碼,因為在編碼之前,Y存儲的是鳶尾花的名字,也就是字符串變量。我們無法用字符串變量進行數值計算,因此我們需要把它變成0,1,2這種格式的數據。大家可以打印編碼後的Y來查看編碼的效果。


劃分數據

<code>from sklearn.model_selection import train_test_split/<code>
<code>X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)/<code>
<code>print (X_train.shape)/<code>
<code>print (X_test.shape)/<code>

我們使用sklearn中的切分數據集的模塊,model_selection來完成訓練集和測試集的劃分。一般而言我們隨機從整個數據集中找到80%的數據作為訓練集,另外20%的數據作為測試集。一個更加嚴謹的辦法是將整個數據集隨機劃分成五份,然後依次用其中的一份作為測試集,另外四份合併作為訓練集,對算法運行五次,最後取五次的平均值作為最終的結果。這裡我們只用一次,作為演示。大家可以看到我們打印了訓練集和數據集的形狀,的確按照八二分。


特徵縮放

<code>from sklearn.preprocessing import StandardScaler/<code>
<code>sc_X = StandardScaler()/<code>
<code>X_train = sc_X.fit_transform(X_train)/<code>
<code>X_test = sc_X.fit_transform(X_test)/<code>

由於我們的特徵不止一個維度,每個維度之間沒有同一個刻度,會導致兩個維度之間的數據差距特別大。可能一個維度的數據是0.1,0.2這種小於1的數字;而另一個維度是1000,2000這種非常大的數字。因此,我們需要給特徵縮放,讓他們都在同一個尺度,方便後面進行模型計算。


分享到:


相關文章: