這些常見的機器學習工具，不知道的快來補課

2018-09-25 15:15:46 異步社區

隨著人工智能的火熱，很多企業甚至是數據挖掘愛好者開始嘗試自己動手來挖掘數據中的價值。機器學習的基礎設施包括數據、算法和工具。前面已經介紹了數據和算法方面的內容，本文將重點介紹機器學習工具。

機器學習工具從計算能力上來講可以分為兩種，即單機計算和集群計算。本文會分別對單機版機器學習工具、開源分佈式機器學習工具以及企業級雲機器學習工具進行介紹，如圖1-1所示。

圖1-1　機器學習工具

首先介紹單機版的機器學習工具。如果讀者有過數據挖掘的經歷，一定會對下面幾款工具都有一定了解：SPSS和R。這些都是單機版機器學習工具的代表，每一款產品都有自己的特點，SPSS的操作更方便，R的畫圖功能比較簡潔。

單機版工具的特點就是安裝方便，比較好上手，因為單機版工具不依賴於底層計算集群的配置。

但是單機版工具在計算能力上不能與分佈式機器學習工具相提並論，往往只能進行一些數據的實驗或者畫圖展示，在企業級數據處理和業務服務上相對比較乏力。

介紹完單機版機器學習工具之後，接下來講一下分佈式機器學習工具。筆者認為，真正的智能計算平臺一定是具備處理大規模數據、提供豐富算法能力的計算平臺。通常來講，一套完整的機器學習工具的架構包括4層，如圖1-2所示。

圖1-2　智能機器學習工具的架構

從上向下看，例如有一些業務上的需求，如搭建廣告DSP系統、搭建商品推薦引擎。這些業務場景的需求建立在底層的機器學習算法上，如同之前講到的業務場景抽象的內容。

底層的這些機器學習算法，如K-means、LR和RF等，需要映射到分佈式計算架構上，通過MPI和MapReduce等分佈式的代碼架構來實現這些算法。最後分佈式的代碼架構把任務部署到底層的計算引擎上。

目前隨著雲計算和智能算法的發展，智能機器學習算法的架構搭建也有了多種選擇，有集群+Spark+Mlib的開源組合，也可以使用一些雲計算服務商的企業級機器學習平臺服務，比較成熟的包括亞馬遜的AWS Machine Learning、微軟Azure的Machine Learning Studio以及阿里雲機器學習PAI。

使用開源架構搭建算法平臺可能會提升自身對數據流轉和算法訂製方面的靈活性，但是在集群運維以及算法開發方面的開銷也會比較大。

接下來將分別對單機版機器學習工具、開源分佈式機器學習工具和企業級雲機器學習工具進行介紹進行介紹，主要從相關依賴、操作的易用性及算法豐富程度等方面展開（注：本文的實驗環境為Mac OS系統）。

單機版機器學習工具

對普通用戶來講，特別是一些算法能力還不紮實的數據挖掘初學者來講，使用單機版的機器學習工具可以更快速地上手。本節將重點介紹兩款工具，分別是SPSS和RStudio。

1.1.1　SPSS

（1）簡介。統計產品與服務解決方案（SPSS）軟件是世界上最早的統計分析軟件，由美國斯坦福大學的3位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent於1968年研究開發成功，同時成立了SPSS公司，並於1975年成立法人組織，在芝加哥組建了SPSS總部。

2009年7月28日，IBM公司宣佈用12億美元現金收購統計分析軟件提供商SPSS公司。如今 SPSS 已出至版本 22.0，而且更名為IBM SPSS。迄今，SPSS公司已有40餘年的成長曆史。

SPSS軟件的主要特點是操作界面極為友好。它將幾乎所有的功能都以統一、規範的界面展示出來，使用Windows的窗口方式展示各種管理和分析數據方法的功能，對話框展示出各種功能選擇項。用戶只要掌握一定的Windows操作技能，熟悉統計分析原理，就可以使用該軟件進行科研工作。

（2）安裝。SPSS是付費軟件，具體安裝方法簡便。登錄官網下載SPSS工具，並且購買許可證，直接安裝註冊即可。這裡演示使用的是SPSS 21.0版本，進入產品界面，如圖1-3所示。

圖1-3 SPSS界面

（3）運行實驗。打開SPSS軟件，提示導入數據源。SPSS支持多種數據源輸入，如圖1-4所示。

圖1-4SPSS數據源

這裡導入的是UCI開源數據集的一組數據，是一個二分類的場景。

利用這組數據做一個邏輯迴歸二分類的模型計算。把數據導入SPSS中，其中dioxide_A字段是目標列（目標列分為0和1兩種值），其他字段是特徵列，如圖7-5所示。

圖1-5　數據導入

打開菜單欄中的“分析”菜單，如圖1-6所示，選擇“二元logistic迴歸”。這裡面的“因變量”表示目標列，“協變量”表示特徵字段，單擊“確定”按鈕開始模型訓練。

圖1-6　邏輯迴歸設置

最終的輸出結果可以通過輸出查看器來顯示，模型的評估模塊如圖1-7所示。

圖1-7　模型評估

邏輯迴歸的模型評估模塊針對每一個特徵都有多維度的表示。在這些統計指標中，下面4個指標比較關鍵。

“B”：偏回歸係數，也就是生成的線性模型的係數。

“S.E”：標準誤差。

“Wals”：Wald統計量。

“EXP(B)”：變量的有時比。

最終這次實驗生成的邏輯迴歸模型可以表示為：logistic=0.399*fixed-3.895*acidity_A-2.884*volatile-0.006*acidity-2.473*citric+0.039*acid-0.026*residual-15.696*sugar+0.847*chlorides+1.925*free+0.879*sulfur_A+3.056從SPSS的總體設計角度來看，SPSS還是一款偏統計的軟件。數據通過類Excel表格的方式進行操作，大大降低了數據操作者的使用門檻，但是如果想針對數據進行自定義的開發，無論是通過腳本還是數據轉換工具都顯得比較困難。

要想進行大規模的數據挖掘工作，從算法自由度或是效率上來看，SPSS還是有一定侷限性的。

1.1.2　R語言

（1）簡介。如果讀者是做數據挖掘相關工作的，一定會聽說過R語言，現在很多對數據挖掘工程師的基本要求都包含這一條：熟悉R語言。

R語言究竟有哪些特性？

我們通過本文簡單地瞭解一下。先來介紹背景，R是一款集統計計算和繪圖功能於一體的軟件。R語言的前身是S語言，S語言是由著名的AT&T貝爾實驗室開發的用來數據分析和繪圖的語言。

後來經過新西蘭奧克蘭大學的Robert Gentleman等人在S語言的基礎上繼續開發，誕生了R語言的雛形。

R語言主要具備下面一些優點。

開源。R語言是一款完全開放源碼的工具。因為開源，數據開發工作者可以自由地閱讀R語言的源碼，而且可以基於R語言的代碼進行擴展，這也是R語言能在短時間內得到快速發展的原因。

每天都有來自全世界的開源愛好者為R語言貢獻代碼包，使用者可以通過install命令輕鬆地安裝這些擴展算法。R語言不同於SPSS等軟件，它可以自如地修改已有的算法，使算法跟自己的業務場景更加貼合。

跨平臺。R語言的跨平臺特性大大加快了這項技術的傳播，目前無論是在 Mac OS、Windows或者Linux系統上都有較為穩定的版本可供使用。用戶只需要一套代碼，就可以把業務邏輯運行在不同的平臺上。

較為完善的資料。因為目前R語言的開源貢獻者眾多，而且R語言無論在學術界或是工業界都有很多的應用，已經有大量的使用者貢獻了許多可以參考的學習資料或者實例代碼。關於R語言的一些應用，已經有相關圖書資源可供參考。

可視化。R語言在數據可視化方面也獨具特色，提供了很多種畫圖包以及豐富的繪圖功能，使生成的數據可以清晰地可視化展現出來。例如，畫一條定義域為[-3,3]的Sigmoid函數曲線。Sigmoid函數公式為

用戶只需要輸入如下指令，就可以得到如圖1-8所示的截圖。

圖1-8 R繪圖

> x

> y

> plot(x,y)

R語言的使用方式是通過命令行的形式來實現的。R語言的特點是比較簡單、容易理解，配合上豐富的算法包，初學者基本上學習半天時間就可以跑通一整套複雜的數據挖掘實驗。RStudio是針對R語言的一款IDE工具，下面會通過一個案例，詳細介紹如何通過RStudio跑通邏輯迴歸算法。

（2）安裝。本書的實驗環境是Mac OX 10.11.1 EI Capitan系統。使用RStudio需要首先安裝R語言包，讀者可以去官方網站下載R語言，地址為https://www.r-project.org/，安裝成功後，打開R看到的是一個命令行終端界面，如圖1-9所示。

圖1-9 R終端

安裝R語言之後，就可以安裝RStudio，下載地址為https://www.rstudio.com/，進入界面，如圖1-10所示。

圖1-10 RStudio界面

（3）運行實驗。安裝RStudio完成之後，本次實驗將會針對一份開源數據集進行邏輯迴歸模型訓練實驗。首先導入數據，RStudio支持多種數據格式的導入，部分格式可能需要安裝對應的函數包。

本次實驗導入的是CSV格式文件，導入方法有兩種，可以使用RStudio提供的Import Dataset按鈕，也可以通過如下函數實現。

> data

("～/Documents/work/book/data/data.csv", sep=";")

>View(data)

導入數據之後，用戶就可以可視化查看數據，如圖1-11所示。

圖1-11 R數據導入

下面介紹如何對數據進行邏輯迴歸處理。其實在RStudio裡面只需要以下一行代碼就可以實現。

mylogit

mylogit表示邏輯迴歸對象名稱。

glm是線性模型函數。

abel是目標列，～表示除目標列以外的字段。

data表示數據集。

binomial表示二分類。

link='logit'表示邏輯迴歸。

用戶可以通過summary函數查看生成的模型。

summary(mylogit)

結果如圖1-12所示。

圖1-12　邏輯迴歸結果

結果（見圖1-12）中的Estimate字段就是生成的邏輯迴歸模型係數，我們可以得到最終的邏輯迴歸模型如下。

logit=3.05+0.39*fixed.acidity-3.89*volatile.acidity-2.88*citric.acid-0.006*residual.sugar-2.47*chlorides+0.03*free.sulfur.dioxide-0.02*total.sulfur.dioxide-15.69*density+0.84*pH+1.92*sulphates+0.87*alcohol

另外，用戶還可以通過R語言強大的圖形展示功能查看一下模型的擬合情況。

> plot(mylogit)

此時可以看到結果如圖1-13所示。

圖1-13　圖形擬合曲線

通過上面的實驗，讀者可以簡單瞭解RStudio以及R語言的語法和操作方式，可以看到R語言的語法是非常容易理解的，而且對結果的圖形化展示功能也能讓數據操作者更直觀地觀察結果輸出。

在數據源支持方面，RStudio支持導入本地數據源，同時也支持服務器連接。具體支持的格式可以通過安裝相應的插件來擴展，基本包含了 SPSS 的全部格式，對各種數據庫文件也有良好的支持。

在算法支持方面，因為R語言是建立在開源社區之上的，所以有很多算法包可供選擇，基本涵蓋了特徵工程、分類算法、聚類算法、迴歸算法和神經網絡算法等常規機器學習算法，而且在算法擴展性方面，也支持對算法進行更大幅度的自定義改造。

因為R語言具備如此多的優良特性，所以近期有越來越多的分佈式系統正在對R語言進行改造，期盼R語言也可以實現分佈式的計算，從而突破目前所遇到的計算資源上的瓶頸，未來的雲RStudio會更加令人期待。

總之，R語言對於做數據挖掘的工程師來講，是一個非常理想的實驗環境，特別是在計算結果可視化呈現方面。

開源分佈式機器學習工具

前面介紹了一下單機版的機器學習工具SPSS軟件和RStudio，作為單機版的工具，不用關心集群配置和運維等操作，所以SPSS軟件和RStudio都具有容易安裝和上手的特點。

但是在實際的使用過程中，特別是數據量比較大的情況下，就會出現效率低下的問題。對大規模的機器學習計算，需要通過分佈式架構進行處理，本節將重點介紹一下目前比較流行的兩種支持分佈式機器學習工具，分別是Spark MLib和Tensorflow。

1.2.1　Spark MLib

1．簡介

MLib是Spark的機器學習算法庫，是完全開源的。以Spark框架為基礎構建的機器學習算法系統目前正在廣泛地運用到各種領域當中。

既然要從處理實際的工業界場景的角度出發，Spark和Hadoop的MapReduce框架是目前業內最主流的兩種開源分佈式架構，難免要對它們進行一下對比，我們單從對機器學習算法的支持方面考慮如下。

（1）對多步迭代的支持。通過算法章節對算法的介紹，我們瞭解到大部分算法需要通過多步驟的迭代計算才可以實現，如梯度下降算法，需要通過多次迭代計算損失函數，然後才可以逐步逼近最優解。

傳統的Hadoop的MapReduce計算框架，在每次迭代的過程中都需要對硬盤進行讀寫，這樣就造成了很大的I/O消耗，降低了效率。

而Spark分佈式計算框架是基於計算機內存來進行迭代計算的，通過將大量的計算工作在內存中處理的方式，可以大大減少對硬盤的數據讀寫，從而提高迭代類算法的計算效率。

（2）從集群通信的角度分析。Spark的Akka和Netty通信系統在信息傳遞和數據傳遞兩方面，從效率上來講都遠遠優於Hadoop的JobTracker間的通信機制。

以上兩點是從分佈式計算架構的角度分析得到的Spark相較於MapReduce的優勢，下面介紹Spark MLib庫的一些屬性。

MLib 作為分佈式機器學習算法庫，設計的初衷是使機器學習算法更容易使用和擴展。

對數據集的支持方面，Spark MLib 支持本地的一些向量和矩陣數據，同時支持底層的彈性分佈式數據集（RDD）。RDD是分佈式內存的一個抽象概念，提供一種高度受限的內存模型，可以看作Spark MLib 的一個對象，運行在內存中。

以上是對Spark MLib的基礎介紹，下面介紹如何構建Spark MLib機器學習系統。

2．安裝配置環境

（1）首先下載Spark，實驗環境為Mac OS，需要安裝jdk。Spark下載地址為http://spark.apache.org/downloads.html，下載完成後解壓，在命令行終端進入Spark目錄，執行如下命令就可以啟動Spark。

./sbin/start-master.sh

啟動Spark之後，用戶可以登錄瀏覽器的localhost://8080 查看，如圖1-14所示。

圖1-14　登錄Spark

（2）我們發現此時的Workers和Running Applications都是空的，因為Spark是基於分佈式系統的計算框架，所以需要添加Worker才能讓這個系統運行起來，否則是不能使用的。

為了方便講解，這裡把本機添加成Worker，添加其他集群機器的原理是相同的。添加Worker需要deploy worker的命令如下。

./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT

如果添加的是本機，IP:Port可以通過圖中的框線處得到，如圖1-15所示。

圖1-15 IP圖

將本機添加成Worker之後，再次刷新localhost:8080就可以看到Worker出現在列表中了，如圖1-16所示。

圖1-16　添加Worker

1.2.2　TensorFlow

1．簡介

TensorFlow，是一個開源的機器學習框架，是基於著名的DistBelief開發的。最初的TensorFlow由“谷歌大腦”團隊的研發人員開發，是用來研究深度神經網絡的工具，但是隨著架構的不斷完善，整個系統已經被改造得可以適用於多種不同的場景。

Google在2015年將TensorFlow開源後，迅速得到來自IT行業各界的強烈反應。Android作為Google開源產品的標杆，已經佔領了移動端市場，人們都在猜測，TensorFlow或許是Google進軍人工智能市場的一把“尖刀”。

目前來看，TensorFlow具備著優良的特性，而且在新的版本中已經支持了分佈式計算。在未來一段時間裡，TensorFlow勢必要引領機器學習的一段潮流。

先來簡單介紹一下什麼是TensorFlow，從字面意思來理解，Tensor 表示張量，是指任意維度的數據。在TensorFlow中，數據是通過數據流的形式在算法節點中流轉的。我們通過深度學習的一張架構流程圖（見圖7-24）來解釋。

圖1-17　深度學習

通過這張深度學習的架構圖來分析，圖1-17中豎形單元表示算法層，有輸入層、隱藏層和輸出層，每個圓形的單元是計算節點。

TensorFlow中的數據以數據流的形式在計算節點中流動。從前向後流，就是前向傳播，從後向前流，就是後向傳播，Flow表示的就是數據的這種流動。僅從字面意思來看，TensorFlow的具體計算形式已經表現得很清楚了。

下面簡單介紹下TensorFlow的一些特性。

（1）靈活性。TensorFlow的靈活性不只表現在對算法的支持上，也表現在架構方面。TensorFlow支持單機計算和分佈式計算，同時也可以將計算在CPU和GPU之間靈活切換。

在對算法的支持方面，TensorFlow不單單是一個神經網絡庫，它還可以看作機器學習的編程架構，開發者可以將自己的算法邏輯寫成流圖的形式，然後就可以把自己定義的算法運行在TensorFlow的架構中去。

（2）易用性。TensorFlow可以自動計算梯度，只需要手動設置好計算架構，設置好目標函數，然後向系統中灌入數據即可，中間的計算和參數權重變化都是自動完成的，同時系統也提供了辦法幫助用戶監督整個計算流程。

在具體使用方面，雖然TensorFlow的底層代碼是通過C++來編寫的，但是可以通過Python接口來創建計算流圖。用戶在邏輯代碼的計算框架編寫方面也比較容易上手。

（3）良好的資源調度能力。

TensorFlow可以幫助開發者充分利用計算資源。對計算資源的調度可以高度自定義，可以自由調用CPU和GPU，同時也支持線程、隊列和異步計算等。

TensorFlow讓開發者可以充分利用自身的硬件資源，而且可以讓數據流在不同的機器上自由流轉。

2．實驗環境搭建

前面介紹了TensorFlow的一些概要和基本性能，接下來介紹搭建TensorFlow的實驗環境，並且跑通程序員們最熟悉的程序——Hello World。

（1）安裝pip。pip是Mac系統中的一個Python的安裝工具，TensorFlow可以通過pip自動安裝，具體命令如下。

sudo easy_install pip

sudo easy_install --upgrade six

如果已經安裝了pip，可以忽略這一步.

（2）安裝Virtualenv。Virtualenv是一個用於隔離本地Python環境的工具，因為TensorFlow在使用過程中需要對環境參數做一定的調整，所以推薦安裝Virtualenv來進行隔離。

具體的操作步驟是首先安裝Virtualenv，命令如下。

sudo pip install --upgrade virtualenv

然後在Virtualenv環境中創建一個tensorflow目錄，命令如下。

virtualenv --system-site-packages ～/tensorflow

激活環境，可以通過activate和activate.csh兩種方式，命令如下。

source ～/tensorflow/bin/activate# If using bash

source ～/tensorflow/bin/activate.csh# If using csh

（3）安裝TensorFlow。現在就可以通過pip在這個環境下安裝TensorFlow了，根據Python的版本不同而選擇不同的安裝命令如下。

# Python 2

(tensorflow)$ pip install --upgrade $TF_BINARY_URL

# Python 3

(tensorflow)$ pip3 install --upgrade $TF_BINARY_URL

命令中的TF_BINARY_URL需要根據系統版本，Python版本是否支持GPU來進行選擇。

# Mac OS X, CPU only, Python 2.7:

(tensorflow)$export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/mac/cpu/tensorflow-0.10.0-py2-none-any.whl

# Mac OS X, GPU enabled, Python 2.7: (tensorflow)$export

TF_BINARY_URL=https://storage.googleapis.com/tensorflow/mac/gpu/tensorflow-0.10.0-py2-none-any.whl

# Mac OS X, CPU only, Python 3.4 or 3.5:

(tensorflow)$export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/mac/cpu/tensorflow-0.10.0-py3-none-any.whl

# Mac OS X, GPU enabled, Python 3.4 or 3.5:

(tensorflow)$export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/mac/gpu/tensorflow-0.10.0-py3-none-any.whl

（4）示例。前面已經把TensorFlow的計算環境安裝完畢，我們激活Virtualenv下面的TensorFlow後，會進入到Python的隔離環境中，命令行終端的最前端會出現“tensorflow”的字樣。下面介紹Hello world的執行代碼。

#tf

import tensorflow as tf

hello = tf.constant('Hello world!')

sess = tf.Session()

print(sess.run(hello))

constant是TensorFlow的一種數組，這裡就不詳細介紹了。下面主要來說一下Session的概念，Session表示會話的概念，在TensorFlow系統中，用戶通過會話來與TensorFlow系統交互。一般的模式是先建立會話，然後在會話中添加節點和邊，再通過Session來與TensorFlow交互。執行上面的這個代碼文件，就會看到返回的結果，如圖7-25所示。

圖1-18　結果

綜上，一個單機版的TensorFlow就已經安裝成功，並且跑通了Hello World實驗。

企業級雲機器學習工具

前面介紹的分別是單機版的機器學習工具和開源的分佈式機器學習工具，雖然這些工具大多都具備友好的操作方式和豐富的算法，但是在企業級服務方面還是存在一些缺陷。接下來詳細介紹亞馬遜機器學習平臺和阿里雲機器學習平臺PAI。

1.3.1 亞馬遜AWS ML

Amazon Web Service（AWS）是亞馬遜在2006年推出的雲計算服務，主要優勢是能夠以根據業務發展來擴展的較低可變成本來替代前期資本基礎設施費用。根據亞馬遜提供的數據，AWS已經為全球 190 個國家和地區的企業提供支持。

AWS目前是雲計算行業的領軍者，曾經擊敗過IBM獲得美國中情局的雲服務大額訂單。亞馬遜機器學習，是2015年4月份推出的一款能夠幫助開發者使用歷史數據開發並部署預測模型的服務。

這些模型有廣泛的用途，包括對欺詐行為的檢測、防止用戶流失並改進用戶支持。亞馬遜機器學習是通過嚮導的方式為開發者提供關於機器學習模型的創建和調試流程的指導，從而部署並擴展模型，支持數十億級別數據量的預測。

亞馬遜通過嚮導的方式建立實驗，並且把機器學習服務和Amazon Simple Storage Service（Amazon S3）、Amazon Redshift、Amazon Relational Database Service（Amazon RDS）集成，讓客戶使用存儲在AWS雲服務上的數據，做到整個雲服務的生態打通。

1.3.2　阿里雲機器學習PAI

前面介紹了亞馬遜的企業級機器學習服務AWS ML，接下來將介紹一款國內目前比較成熟的機器學習平臺，來自阿里雲的機器學習PAI。

阿里雲機器學習PAI是一款幾乎涵蓋了所有種類機器學習算法的機器學習平臺。阿里雲機器學習的底層計算引擎是阿里雲研發的飛天分佈式計算引擎，可以處理EB級別的數據。

算法平臺本身涵蓋了從數據預處理、特徵工程、機器學習算法、模型評估、預測和部署一整套的機器學習算法解決方案，因為打通了整條數據挖掘的鏈路，使得阿里雲機器學習可以不單作為一款科學研究的工具，也可以作為企業級的算法解決方案來使用。

我們先來了解下這款產品的功能架構，如圖1-19所示。

圖1-19　機器學習平臺架構

自下向上來分析架構圖，阿里雲機器學習的最底層是支持異構調度（指CPU和GPU混合分佈）的分佈式計算引擎，支持GPU主要是為了更好地支持上層的深度學習算法。

在計算基礎設施上面的計算架構層支持了幾款主流的分佈式架構MR和PS等。在實際的操作中，用戶對計算框架和基礎設施這兩層是無感知的，用戶只需要考慮自己的場景適用於哪些算法即可，做到了算法和計算架構的解耦。

相較於 AWS ML 的嚮導式算法模型搭建流程，如圖1-20所示，阿里雲機器學習平臺採用拖拉拽的方式搭建實驗流程，嚮導式的模型訓練建立方式能更容易上手，但是阿里雲這種拖拉拽式的操作對實驗的擴展性和自定義性更有保證。

圖1-20　阿里雲機器學習平臺界面

進入操作界面，我們可以看到左邊是一個個算法組件可供拖曳，把組件拖拽到中間的畫布上，然後按照算法邏輯連線，在最右邊的設置框中定義每一個組件的參數。

這樣的體驗給人一種搭積木式的感覺，不需要去考慮底層的計算資源和運維這些因素，算法工程師只要把精力聚焦到業務的場景以及算法的搭配即可。

在使用阿里雲機器學習平臺進行實驗的時候有一點需要注意，因為在搭建數據預處理、特徵工程和機器學習算法等環節時都有很多的組件供選擇（AWS ML選擇餘地相對單一），所以要求使用者具備一定的機器學習基礎。

《機器學習實踐應用》

李博著

本書通過對機器學習的背景知識、算法流程、相關工具、實踐案例以及知識圖譜等內容的講解，全面介紹了機器學習的理論基礎和實踐應用。書中涉及機器學習領域的多個典型算法，並詳細給出了機器學習的算法流程。

本書適合任何有一定數據功底和編程基礎的讀者閱讀。通過閱讀本書，讀者不僅可以瞭解機器學習的理論基礎，也可以參照一些典型的應用案例拓展自己的專業技能。同時，本書也適合計算機相關專業的學生以及對人工智能和機器學習感興趣的讀者閱讀。

《人工智能（第2版）》

[美] 史蒂芬·盧奇（Stephen Lucci）著

美國經典入門書，被譽為人工智能領域百科全書。人工智能領域近十年來最前沿教程，2018年全新更新。

本書基於人工智能的理論基礎，向讀者展示全面、新穎、豐富多彩且易於理解的人工智能知識體系。本書給出諸多的示例、應用程序、全綵圖片和人物軼事，以激發讀者的閱讀和學習興趣；還引入了機器人和機器學習的相關高級課程，包括神經網絡、遺傳算法、自然語言處理、規劃和複雜的棋盤博弈等。

分享到:

閱讀更多 異步社區 的文章

關鍵字: R語言數據挖掘 RStudio

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

通過線性迴歸理解機器學習

機器視覺基礎知識

人工智能公司思必馳宣佈完成4.1億元E輪融資

在線教育破局指南：跑通3種流量轉化模型，100%規模化增長

歐洲盃沒了，"世界盃"來了，阿里引領人工智能升級2.0時代

羅永浩抖音直播貨品再曝光：網易嚴選，安慕希在列

是什麼原因導致了Go對Python的衝擊？

直面疫期配送大考驗，智慧物流這波作答你給幾分？

2G看文字，3G看圖片，4G看視頻，5G看什麼？中國移動告訴你

02.29 Facebook Messenger將獲得更簡潔的新設計

02.28 智聯Python相關職位的數據分析及可視化-Excel篇

科技戰疫丨更安全些機器“小哥”上場了

5G可以做或不能做什麼的擔憂和困惑，5G的前5個謬論，您需知道

自我升級智能體的邏輯與認知問題

12.26 2019 AI收購：五巨頭打響人才爭奪戰

破案了！僅用一個智能雲臺攝像頭就抓獲了“敗家”嫌疑犯

中國移動北京公司攜手合作夥伴折桂世界5G大會5G應用設計揭榜賽

EVG與DELO聯手提升晶圓級光學元件和納米壓印光刻技術

索尼AI正式成立未來將與谷歌和Facebook並肩

我國正式開啟6G網絡研發工作，OPPO又一次走到了行業前列

5G下的金融科技向何處去神州信息高管全方位解答

iPhone 11 Pro Max DxOMark攝像頭評分出爐

10.23 AI能讓人類“永生”？或許可行

10.21 AI+CRM：客戶管理會變得更容易？

09.09 AI除了當客服，電商還在用它做些啥？

努力搶佔時代的風口

MongoDB + Spark: 完整的大數據解決方案

深度學習應用於太空

《nature》雜誌：我們有義務搞懂我們所創造出來的技術

智能運維（AIOps）中幾處問題的解決方案與思路

機器“創作”的圖書問世，你有興趣讀一讀嗎？

機器、動物與人類思維的本質與邊界

谷歌啟動人工智能平臺，看起來像一個RASPBERRY PI

三星Galaxy S10+琉璃綠，簡單開箱

人工智能，機器，編程，未來

01.10 2019，齒輪易創合作伙伴智見MAX之天使投資提前知

網際網路風雲背後的人工智慧生長

人類 VS 機器

人文與「機器」的對立與融合

09.06 首發｜Splunk>live!2018中國用戶大會上海站完整議題曝光！

08.15 這些高校專業即將撤銷，有你的專業嗎？

國外工業製造巨頭都在怎麼玩物聯網？

金華開啓刷臉支付福泰隆首批推出21台「刷臉」機器

06.17 人工智能算法Facebook的新AI研究可讓睡美人睜開眼比Photoshop好

人類1000多種工作將被人工智慧替代，俄羅斯發明智能作曲機器

05.16 內部員工請願辭職，外界發公開信批判，谷歌能否恪守不作惡信條？

05.03 2018Facebook年度開發者大會你想知道的新品發佈都在這！

03.14 這九位中國人工智能領域傑出女性，你應該知道

小米太無恥了。

小米高管不只口嗨了，在國內拳打友商，在國外卻開始下跪了。下一步，我猜小米會喊，高通爸爸，人家愛死你了，人家已經五體投地了喲。

蹭熱點！說說我理解的手機包裝盒事件。

今早醒來刷頭條，發現大批米系自媒體鋪天蓋地發文嘲諷華為系自媒體，忍不住好奇瞭解了一下情況，原來是剛發佈的一加8 海外版手機的手機包裝盒上面印了一句話:with easy access to the Google apps you use most.而這句話也印在前段時間發佈的小

蘋果公司正式發佈iPhone SE二代手機

新品名為“iPhoneSE”，擁有跟iPhone 8相似的外觀，搭載了蘋果當前最新的A13仿生芯片，具備IP67級別防水防塵能力，配備4.7英寸LCD材質屏幕，支持原彩顯示，配備了Touch ID指紋識別。

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

至於受很多人關注的華為河圖全面落地問題，官方有消息稱，2020年第二季度會提供100個華為河圖測試點，測試點到第四季度會增加至1000個，測試覆蓋空間包括智慧園區、旅遊景點、高鐵站和機場等。

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

小米科技高管盧偉冰在近日表示，5G旗艦手機如果5G網絡全開，功耗會比4G手機高20%，4000mAh的5G手機大約等於4G手機的3200mAH；今年Redmi堅持把5G手機的容量控制在4500mAh以上，也是考慮到5G網絡耗電大的原因，今年很多5G智能手機均採用大電池的設計。

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

榮耀30Pro/30 Pro+同時搭載麒麟990 5G SoC，相應的其它配置更高：Wi-Fi6+，支持紅外遙控，USB 3.0 Type-C接口。

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

現在，家庭寬帶都在500M左右，大部分手機也不支持Wifi6標準，換Wifi 6無線路由器有點早，因為換了Wifi 6無線路由器網速也不會變快。

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

都說蘋果手機賣不動了，可我看想買iPhone手機的人還是那麼多，不然之前蘋果公司怎麼會限購？數據顯示，3月份在國內的 iPhone 銷量比 2 月份激增 416%，達到約 250 萬部。

幹翻華為P40系列榮耀30也玩中

而今天的華為發佈會上，榮耀30、30 Pro、30 Pro +3個版本中、大、特大杯齊亮相，又一片全新5G SOC，麒麟985也要登場。

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

原來男子是從事互聯網工作，後面覺得是互聯網寒冬來了，就堅決辭去互聯網工作，跨行選擇了一個教育傳統上市公司，可是第1天上班就蒙了，公司讓做的活兒太死板了，沒有發揮空間，同事一點都不友善，領導不放權，而且管理線超級單一，氛圍一點都不一樣，所以想離職。

蘋果發佈新款iPhoneSE，3299元起售

北京時間4月15日晚，蘋果正式發佈了新款iPhone SE，搭載了A13仿生芯片，支持最新的iOS 13系統，支持 18W快充，也支持Qi無線充電。SE機型蘋果到目前為止只發布了兩款，這是iPhone產品體系裡小屏和低價的典型機器。

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

政府對於跨境電商行業的大力支持給咱們廣大跨境電商賣家吃了一顆“定心丸”。我們所做的跨境電商事業在一定程度上不再是為個人謀利益，而是成為了中國產品走向世界，為國家賺取外匯的主力軍。

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

在開始文章的乾貨分享之前，先給大家講一個商家被用戶勒索的案例。有一位朋友剛剛加入亞馬遜跨境電商平臺兩個多月，在這期間有位美國用戶在他店鋪裡面購買了一個毛巾架。

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

做過跨境電商朋友肯定知道，很多國外客戶對於有些商品看不懂說明書，想索要商品使用視頻教程，畢竟視頻信息量大，容易理解和快速上手。

值得收藏！三類賣家三種選品方案，總有適合你的一個……

網上很多所謂的“大佬”喜歡吹噓用某某工具就可以迅速選品效率，迅速取得很高效率等等，其實這類人就是在賣軟件，收培訓費用…

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

咱們今天不說主打歐美市場的亞馬遜，只談一下以東南亞市場為主的Shopee。好多人都聽說過，但是沒有真正瞭解過，好多人想加入Shopee但是顧慮重重，今天我來給大家普及一下關於Shopee小秘密。

馬雲終於要辭職了，留下的話句句觸動人心

去年，在教師節這天，阿里巴巴集團創始人馬雲今天公開信宣佈：一年後的阿里巴巴20週年之際，即2019年9月10日，也就是今天，他將不再擔任集團董事局主席，卻留下句句觸動心靈的話！！

等等，明年5G手機將迎來大降價

11月26日下午，聯發科技（MediaTek）在深圳舉辦“聯發科技 5G方案發布暨全球合作伙伴大會”，正式發佈了全新的5G新芯片品牌——“天璣”，同時帶來了首款集成式旗艦級5G移動平臺——天璣1000。

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

微信公開課pro版2019，為期兩天微信大會正在廣州火熱進行中，本次會議主題為：同行WITHUS。微信這一款超級應用，已經深入到我們生活的方方面面，所以這48小時的未來盛宴必將吸引無數眼球。

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

小海按：美團的超級App夢想更近了？Tech星球文 | 馬微冰陳橋輝頭圖 | IC Photo王興曾說，“太多人關注邊界，而不關注核心。”

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

而且在我們國內和美企中，有相當一部分覺得我們研發不了5G，更特說超越他們了。由於，我們在科技領域一直是，裝備一代，研發一代，探索一代。

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

前段時間，英國首相呼籲員工在家辦公的第二天，英國網絡就出現大面積崩潰現象，不僅無法正常上網，而且電話也不能打、短信也不能發，給用戶造成了很大的困擾。

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？因為五年內沒有人能超過整個5G領域，所以美國人無法超越，為什麼？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

小海按：前端殺手級應用，後端雲服務，在線辦公「四小龍」之戰開啟。本來，在線辦公更多的是阿里巴巴的主場。

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

原來華為P40Pro+在上一代P30 Pro潛望式鏡頭橫置長焦鏡頭模組和感光器件基礎之上，進一步採用全新的多反射潛望式光路摺疊技術，實現5次反射光路，光程比上一代潛望式長焦提升178%。

今天聊一聊直播

今天聊一聊直播突然談到這個話題，是因為後知後覺的我，突然發現幾乎所有大互聯網公司都進軍了網絡直播行業，或者正在準備進軍直播領域。

通過直播賺錢不容易，既要豁得出去，又要端得起來

今天咱們繼續聊一聊直播吧當下，像頭條、網易、百度等公司，看上去和直播八竿子打不著的公司，也開始涉足直播了。

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

並非危言聳聽，AI和自動化結合，勢必會把數十億人類踢出勞動力市場，數量巨大的失業工人，將會構成一個規模龐大的新階級。AI最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

長期以來，一直令人擔心的IPv4地址耗盡的問題，今天這一刻終於發生——所有43億個IPv4地址已分配完畢，這意味著沒有更多的IPv4地址可以分配給ISP和其他大型網絡基礎設施提供商。

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

很多人認為12306系統很不好，之前我也是這麼認為的，因為我覺得像雙十一這麼大流量，阿里都能承受住，為什麼12306不行，這其實是誤解，12306擁有著神一般的架構設計，平時的壓力比淘寶大的多。

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

據路透社消息，10月25日，美國防部將高達100億美元的十年期戰略合同授予微軟公司，這一舉動引起亞馬遜的不滿。

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

北京時間26日消息，國際開源芯片技術組織RISC-V基金會週一宣佈，由於擔心美國的貿易限制，計劃將總部從美國特拉華州遷往瑞士。該基金會首席執行官卡利絲塔-雷蒙德（Calista Redmond）表示，希望確保美國以外的大學、政府和企業能夠幫助開發其開源技術。

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

比特幣價格今年如同坐上過山車，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是這半年來的最低點了。說起比特幣，給人印象最深刻的，莫過於2017年末到2018年初的暴漲了吧。

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

可是，蘋果事實上一直都在推動終端產品進入全面無線時代，所以他們是不太可能在真正意義上放棄這款產品。有外媒稱，蘋果目前正準備重新啟動AirPower項目。

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰隨著網絡的不斷髮展，如何確保網絡信息安全成為人們十分重視的問題。

互聯網流量需求增大希臘民眾“宅生活”考驗網速

英國諮詢公司Tech4i2報告指出，在疫情期間，希臘的互聯網流量需求至少增長50%，但網速僅下降1.2%，而在大多數歐洲國家，網速平均下降了5%-7%。

互聯網科技企業，傳統辦公模式該走向何處?

　　紐約，處於美國疫情震中的城市，工作模式大多是使用公司發放的電腦進行遠程辦公，而在這之前，部分互聯網企業本來默認每週三為在家辦公日，所以大家對在線辦公可以說駕輕就熟。

微信又悄悄上線一新功能～網友卻開始擔心

備註後的群聊名稱僅自己可見往後再也不用為分清亂糟糟的微信群聊而困擾不過從目前來看只有iOS端上線了這一新功能安卓用戶還需要再等等並且此次更新為後臺更新無需到AppStore更新即可看到這個新功能該功能上線後網友們紛紛站隊但也有網友視野開闊擔心起另一件事對於微信新功能群備註你覺得實

正式確認！孫正義退出市值5959億阿里，20年與馬雲成就彼此

文：小娜說到孫正義這個名字，我們很多人都知道他是日本軟銀集團的創始人兼總裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成為今天的阿里，與孫正義的投資是分不開的。當時，馬雲和孫正義僅僅交談了五分鐘，孫正義當即就決定投資阿里，而且一下就投資2000萬美元。

科技添柴“非接觸經濟”升溫

新華社記者王全超攝中國同拉美和加勒比國家舉行視頻工作會議，就新冠肺炎疫情防控開展交流。亞歷山大·培尼亞攝在中國科學技術大學附屬第一醫院，乘客用“無接觸電梯按鈕”操作電梯。

好像在哪見過？華為nova7官宣餘承東:何必只有一點點

全新iPhoneSE根據此前爆料，此次華為nova7系列將有nova7 SE、nova7和nova7 Pro三個版本，可能會採用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”兩種芯片組合。

行業紅利、資本湧入，疫情後的在線教育聚師網如何“涅槃”

2018年，線下培訓機構受到了相關部門政策的影響，整體發展勢頭趨降，然而市場上對於教育的需求卻在不斷增加，於是，大量學員開始把需求放到了線上，其中，職業教育在這方面的變化尤其明顯。

數字貨幣真的來了？首吃螃蟹者傳出，碰一碰功能露臉

蘇州相城區政府相關人士對此未予置評，區金融局人士表示“不便答覆”，其他多個當地機關單位稱尚不知情，央行蘇州市中心支行表示“以總行口徑為準”，央行總行方面未予確認。新京報記者程維妙陳鵬編輯嶽彩周校對薛京寧

實例 | 200 SMART運動控制基本指令詳解

C_Dir:表示電機的當前方向信號狀態，0 = 正向 1 = 反向。 START:觸發開始發脈衝信號，必須要在運動軸空閒時發送一次信號，必須用邊沿觸發。

這些常見的機器學習工具，不知道的快來補課

相關文章:

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

通過線性迴歸理解機器學習

機器視覺基礎知識

人工智能公司思必馳宣佈完成4.1億元E輪融資

在線教育破局指南：跑通3種流量轉化模型，100%規模化增長

歐洲盃沒了，"世界盃"來了，阿里引領人工智能升級2.0時代

羅永浩抖音直播貨品再曝光：網易嚴選，安慕希在列

是什麼原因導致了Go對Python的衝擊？

直面疫期配送大考驗，智慧物流這波作答你給幾分？

2G看文字，3G看圖片，4G看視頻，5G看什麼？中國移動告訴你

02.29 Facebook Messenger將獲得更簡潔的新設計

02.28 智聯Python相關職位的數據分析及可視化-Excel篇

科技戰疫丨更安全些 機器“小哥”上場了

5G可以做或不能做什麼的擔憂和困惑，5G的前5個謬論，您需知道

自我升級智能體的邏輯與認知問題

12.26 2019 AI收購：五巨頭打響人才爭奪戰

破案了！僅用一個智能雲臺攝像頭就抓獲了“敗家”嫌疑犯

中國移動北京公司攜手合作夥伴折桂世界5G大會5G應用設計揭榜賽

EVG與DELO聯手提升晶圓級光學元件和納米壓印光刻技術

索尼AI正式成立 未來將與谷歌和Facebook並肩

我國正式開啟6G網絡研發工作，OPPO又一次走到了行業前列

5G下的金融科技向何處去 神州信息高管全方位解答

iPhone 11 Pro Max DxOMark攝像頭評分出爐

10.23 AI能讓人類“永生”？或許可行

10.21 AI+CRM：客戶管理會變得更容易？

09.09 AI除了當客服，電商還在用它做些啥？

努力搶佔時代的風口

MongoDB + Spark: 完整的大數據解決方案

深度學習應用於太空

《nature》雜誌：我們有義務搞懂我們所創造出來的技術

智能運維（AIOps）中幾處問題的解決方案與思路

機器“創作”的圖書問世， 你有興趣讀一讀嗎？

機器、動物與人類思維的本質與邊界

谷歌啟動人工智能平臺，看起來像一個RASPBERRY PI

三星Galaxy S10+琉璃綠，簡單開箱

人工智能，機器，編程，未來

01.10 2019，齒輪易創合作伙伴智見MAX之天使投資提前知

網際網路風雲背後的人工智慧生長

人類 VS 機器

人文與「機器」的對立與融合

09.06 首發｜Splunk&gt;live!2018中國用戶大會上海站完整議題曝光！

08.15 這些高校專業即將撤銷，有你的專業嗎？

國外工業製造巨頭都在怎麼玩物聯網？

金華開啓刷臉支付 福泰隆首批推出21台「刷臉」機器

06.17 人工智能算法Facebook的新AI研究可讓睡美人睜開眼比Photoshop好

人類1000多種工作將被人工智慧替代，俄羅斯發明智能作曲機器

05.16 內部員工請願辭職，外界發公開信批判，谷歌能否恪守不作惡信條？

05.03 2018Facebook年度開發者大會 你想知道的新品發佈都在這！

03.14 這九位中國人工智能領域傑出女性，你應該知道

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

科技戰疫丨更安全些機器“小哥”上場了

索尼AI正式成立未來將與谷歌和Facebook並肩

5G下的金融科技向何處去神州信息高管全方位解答

機器“創作”的圖書問世，你有興趣讀一讀嗎？

09.06 首發｜Splunk>live!2018中國用戶大會上海站完整議題曝光！

金華開啓刷臉支付福泰隆首批推出21台「刷臉」機器

05.03 2018Facebook年度開發者大會你想知道的新品發佈都在這！

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

互聯網流量需求增大希臘民眾“宅生活”考驗網速

好像在哪見過？華為nova7官宣餘承東:何必只有一點點