機器學習實戰項目- FP-growth算法來高效發現頻繁項集_技术 _ 頭條網

FP-growth 算法簡介

一種非常好的發現頻繁項集算法。基於Apriori算法構建,但是數據結構不同，使用叫做 FP樹的數據結構結構來存儲集合。下面我們會介紹這種數據結構。

FP-growth 算法步驟

基於數據構建FP樹從FP樹種挖掘頻繁項集

FP樹介紹

FP樹的節點結構如下:

class treeNode:
def __init__(self, nameValue, numOccur, parentNode):
self.name = nameValue # 節點名稱
self.count = numOccur # 節點出現次數
self.nodeLink = None # 不同項集的相同項通過nodeLink連接在一起
# needs to be updated
self.parent = parentNode # 指向父節點
self.children = {} # 存儲葉子節點

FP-growth 原理

基於數據構建FP樹

步驟1:

遍歷所有的數據集合，計算所有項的支持度。丟棄非頻繁的項。基於支持度降序排序所有的項。

遍歷所有的數據集合，計算所有項的支持度所有數據集合按照得到的順序重新整理。重新整理完成後，丟棄每個集合末尾非頻繁的項。

步驟2: 6. 讀取每個集合插入FP樹中，同時用一個頭部鏈表數據結構維護不同集合的相同項。

最終得到下面這樣一棵FP樹

從FP樹中挖掘出頻繁項集

步驟3:

對頭部鏈表進行降序排序對頭部鏈表節點從小到大遍歷，得到條件模式基，同時獲得一個頻繁項集。

如上圖，從頭部鏈表 t 節點開始遍歷，t 節點加入到頻繁項集。找到以 t 節點為結尾的路徑如下:

去掉FP樹中的t節點，得到條件模式基[z,x,y,s,t]:2，[z,x,y,r,t]:1 。條件模式基的值取決於末尾節點 t ，因為 t 的出現次數最小，一個頻繁項集的支持度由支持度最小的項決定。所以 t 節點的條件模式基的值可以理解為對於以 t 節點為末尾的前綴路徑出現次數。條件模式基繼續構造條件 FP樹，得到頻繁項集，和之前的頻繁項組合起來，這是一個遞歸遍歷頭部鏈表生成FP樹的過程，遞歸截止條件是生成的FP樹的頭部鏈表為空。根據步驟 2 得到的條件模式基 [z,x,y,s,t]:2，[z,x,y,r,t]:1 作為數據集繼續構造出一棵FP樹，計算支持度，去除非頻繁項，集合按照支持度降序排序，重複上面構造FP樹的步驟。最後得到下面 t-條件FP樹 :

然後根據 t-條件FP樹的頭部鏈表進行遍歷，從 y 開始。得到頻繁項集 ty 。然後又得到 y 的條件模式基，構造出 ty的條件FP樹，即 ty-條件FP樹。繼續遍歷ty-條件FP樹的頭部鏈表，得到頻繁項集 tyx，然後又得到頻繁項集 tyxz. 然後得到構造tyxz-條件FP樹的頭部鏈表是空的，終止遍歷。我們得到的頻繁項集有 t->ty->tyz->tyzx，這只是一小部分。條件模式基:頭部鏈表中的某一點的前綴路徑組合就是條件模式基，條件模式基的值取決於末尾節點的值。條件FP樹:以條件模式基為數據集構造的FP樹叫做條件FP樹。

FP-growth 算法優缺點:

* 優點： 1. 因為 FP-growth 算法只需要對數據集遍歷兩次，所以速度更快。
2. FP樹將集合按照支持度降序排序，不同路徑如果有相同前綴路徑共用存儲空間，使得數據得到了壓縮。
3. 不需要生成候選集。
4. 比Apriori更快。
* 缺點： 1. FP-Tree第二次遍歷會存儲很多中間過程的值，會佔用很多內存。
2. 構建FP-Tree是比較昂貴的。
* 適用數據類型：標稱型數據(離散型數據)。

FP-growth 代碼講解

完整代碼地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/12.FrequentPattemTree/fpGrowth.py

main 方法大致步驟:

if __name__ == "__main__":
simpDat = loadSimpDat() #加載數據集。
initSet = createInitSet(simpDat) #對數據集進行整理，相同集合進行合併。
myFPtree, myHeaderTab = createTree(initSet, 3)#創建FP樹。
freqItemList = []
mineTree(myFPtree, myHeaderTab, 3, set([]), freqItemList) #遞歸的從FP樹中挖掘出頻繁項集。
print freqItemList

大家看懂原理，再仔細跟蹤一下代碼。基本就沒有問題了。

來源：mikechengwei / ApacheCN ，只作分享，不作任何商業用途，版權歸原作者所有

FP-growth 算法簡介

相關文章:

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪