Spark 機器學習四大類算法

Spark 機器學習四大類算法

spark mllib

spark 中機器學習算法,主要有四大類:

  1. 分類算法(Classification)
  2. 迴歸算法(regression)
  3. 推薦算法(Collaborative filtering)
  4. 聚類算法(Clustering)

一,分類算法(Classification)監督學習算法

分類算法(Classification)即監督學習算法,是用於預測所屬類別(兩個類別中的一個或多個類別中的一個),在spakr中主要有二分類和多分類

1,二分類算法(Binary Classification)

a,支持向量機(linear SVMs)

b,邏輯迴歸( logistic regression)

c,決策樹(decision trees)

d,隨機森林(random forests)

e,梯度提升樹算法(gradient-boosted trees)

f,樸素貝葉斯算法(naive Bayes)


2,多分類算法(Multiclass Classification)

a,邏輯迴歸( logistic regression)

b,決策樹(decision trees)

c,隨機森林(random forests)

d,樸素貝葉斯算法(naive Bayes)

應用場景:

a,垃圾郵件分類(是,不是)

b,性別預測(男,女)

c,廣告是否點擊預測(是,不是)

d,水果類別預測(西瓜,香蕉,蘋果,梨)


二,迴歸算法(regression)

迴歸算法是用於預測一個連續的值,主要有以下四種

1,決策樹(decision trees)

2,線性迴歸(Linear Regression)

Linear Regression

L1正則化==>Lasso Regression

L2正則化==>ridge regression

3,隨機森林(random forests)

4,梯度提升樹算法(gradient-boosted trees)

應用場景:

a,某天天氣氣溫預測(比如:4-25)

b,某天訂單預測

c,股票漲跌幅度預測


三,推薦算法(Collaborative filtering)

在spark中,推薦算法主要有兩類:

1,協同過濾算法

交替最小二乘法(ALS)

2,關聯規則算法(購物籃算法)

頻繁模式提升算法(FP-growth)

應用場景:

看了又看,買了又買,買了這個商品的用戶還買了別的


四,聚類算法(Clustering)

研究對象特徵,進行分類的統計方法,聚類算法和分類算法有個最大的區別,缺乏歷史可靠資料

1,K-均值算法(k-means)


五,集成(Ensembles)學習算法(融合學習算法)

將多個機器學習算法合在一起進行預測,然後將預測的結果進行合併

1,隨機森林(Random Forests)

底層N顆樹構成

2,梯度提升樹算法(Gradient-Boosted Trees )

底層是RF算法


<code>spark 從2.0開始,基於RDD api實現的機器學習算法庫,進入到維護模式

以後在使用spark 機器學習功能的時候,建議你使用基於dataframe Api實現的算法庫

1,基於rdd實現的算法庫

所在的包:org.apache.spark.mllib

文檔說明:http://spark.apache.org/docs/latest/mllib-guide.html


2,基於dataFrame實現的算法庫

所在的包:org.apache.spark.ml

文檔說明:http://spark.apache.org/docs/latest/ml-guide.html/<code>

歡迎小夥伴們 關注+轉發 +評論區留言,

發表您的觀點哦!點擊下方藍色字體 “瞭解更多” 可獲取更多資料。


分享到:


相關文章: