11.25 9大數據集6大度量指標完勝,周志華等提出深度森林處理多標籤學習

選自arXiv

機器之心編譯參與:路雪、一鳴

近日,南大周志華等人首次提出使用深度森林方法解決多標籤學習任務。該方法在 9 個基準數據集、6 個多標籤度量指標上實現了最優性能。

在多標籤學習中,每個實例都有多個標籤,多標籤學習的關鍵任務就是利用標籤關聯(label correlation)構建模型。深度神經網絡方法通常將特徵和標籤信息共同嵌入到潛在空間,以充分利用標籤關聯。但是,這些方法的成功高度依賴對模型深度的精確選擇。
深度森林是近期基於樹模型集成的深度學習框架,該方法不依賴反向傳播。最近,來自南京大學周志華團隊的研究者發佈了一篇論文,他們認為深度森林的優勢非常適合解決多標籤問題,並設計了多標籤深度森林方法(Multi-Label Deep Forest,MLDF)。
論文鏈接:https://arxiv.org/abs/1911.06557
MLDF 使用了兩種機制:度量感知特徵重用(measure-aware feature reuse)和度量感知層增長(measure-aware layer growth)。度量感知特徵重用機制根據置信度重用前一層中的優秀表徵,度量感知層增長機制確保 MLDF 根據性能度量指標逐漸增加模型複雜度。
MLDF 可以同時處理兩個難題:限制模型複雜度從而緩解過擬合問題;根據用戶需求優化性能度量指標,因為多標籤評估存在多個不同的度量指標。實驗證明,該方法不僅在多個基準數據集、六個性能度量指標上擊敗了其他對比方法,還具備多標籤學習中的標籤關聯發現和其他屬性。


多標籤學習該怎麼解
在多標籤學習中,每個示例同時與多個標籤相關聯,多標籤學習的任務即為新實例預測關聯標籤集。多標籤學習任務在現實世界中比比皆是,因此該研究領域也吸引了越來越多的注意力。
二元關聯(Binary Relevance)方法將多標籤學習問題轉換為每個標籤的獨立二分類問題,這一直接方法在實踐中廣為應用。儘管它充分利用傳統高性能單標籤分類器,但是當標籤空間很大時,該方法會帶來極大的計算成本。
此外,此類方法忽視了一點:一個標籤的信息可能有助於學習其他相關標籤。這限制了模型的預測性能。因此,越來越多旨在探索和利用標籤關聯的多標籤學習方法應運而生。
與傳統的多標籤方法不同,深度神經網絡模型通常試圖學習新的特徵空間,並在其上部署一個多標籤分類器。但是,深度神經網絡通常需要巨量訓練數據,因而不適合小規模數據集的情況。
周志華教授和馮霽博士意識到,深度學習的本質在於逐層處理、模型內特徵變換和足夠的模型複雜度,進而提出了深度森林。深度森林是基於決策樹構建的深度集成模型,其訓練過程不使用反向傳播。集成了級聯結構的深度森林能夠做到類似於深度神經模型的表徵學習,而深度森林的訓練過程要簡單得多,因為它具備較少的超參數。儘管深度森林在傳統分類任務中很有用,但此前研究人員並未注意到將其應用於多標籤學習的潛力。

用深度森林,解決多標籤學習任務
深度森林的成功主要依賴於以集成方式進行逐層特徵變換,而多標籤學習的重點就是利用標籤關聯。受此啟發,周志華團隊提出了 MLDF 方法。簡單來說,MLDF 方法使用不同的多標籤樹方法作為深度森林的構造塊,通過逐層表徵學習利用標籤關聯。
由於多標籤學習的評估過程要比傳統分類任務更加複雜,因此研究人員提出了大量性能度量指標 [Schapire and Singer, 2000]。研究人員還注意到,不同用戶的需求不同,算法在不同度量指標上的性能往往不同 [Wu and Zhou, 2017]。
為了實現特定度量指標上的更好性能,周志華團隊提出了兩種機制:度量感知特徵重用和度量感知層增長。前者受到置信度篩選(confidence screening)[Pang et al., 2018] 的啟發,重新利用前一層中的優秀表徵。後者則根據不同的性能度量指標控制模型複雜度。
這篇論文的主要貢獻包括:

  • 首次提出將深度森林應用於多標籤學習任務;
  • 實驗證明,MLDF 方法在 9 個基準數據集、6 個多標籤度量指標上實現了最優性能。


多標籤深度森林(MLDF)
下圖 1 展示了 MLDF 的框架。MLDF 的每一層集成了不同的多標籤森林(上方的黑色森林和下方的藍色森林)。

9大數據集6大度量指標完勝,周志華等提出深度森林處理多標籤學習

圖 1:MLDF 框架圖示。每一層集成了兩種不同的森林(上方的黑色森林和下方的藍色森林)。
從 layer_t 中,我們可以得到表徵 H^t。度量感知特徵重用機制將接收表徵 H^t,並在不同指標性能的指引下,重新利用 layer_t−1 學得的表徵 G^t−1 來更新表徵 H_t。然後,將新的表徵 G^t(藍色)和原始輸入特徵(紅色)級聯在一起,輸入到下一層。
在 MLDF 中,每一層都是森林的集成。為了提升該集成的性能,研究者考慮了不同的樹增長方法,以鼓勵多樣性,這對集成方法的成功至關重要。
MLDF 用 RF-PCT [Kocev et al., 2013] 作為森林模塊,並對森林應用兩種不同的樹節點生成方法:一種方法是 RF-PCT,它考慮每個特徵的所有可能分割點;另一種方法是 ERF-PCT,它隨機考慮一個分割點。當然,其他多標籤樹方法也可以嵌入每個層中,如 RFML-C4.5。
度量感知特徵重用
PCT 的分割標準不與性能度量指標直接相關,當指標不同時,每一層生成的表徵 H^t 是相同的。因此,研究者提出了度量感知特徵重用機制,在不同度量指標的指引下改進表徵。
度量感知特徵重用的關鍵想法是:如果當前層的置信度低於訓練中設定的閾值,則在當前層上部分地重用前一層中的優秀表徵,從而提升度量指標性能。


算法 1 總結了度量感知特徵重用的過程。由於基於標籤的指標和基於實例的指標存在很大的差異,我們需要分別進行處理。具體來說,基於標籤的指標在 H^t 的每一列上計算置信度,基於實例的指標基於每一行計算置信度。計算完成後,當置信度 α^t 低於閾值,則固定前一層的表徵 G^t−1,並利用它更新 G^t。

9大數據集6大度量指標完勝,周志華等提出深度森林處理多標籤學習


度量感知層增長
儘管度量感知特徵重用能夠在不同度量指標的指引下高效改進表徵,但該機制無法影響層增長,不能降低訓練過程中出現過擬合的風險。為了減少過擬合、控制模型複雜度,研究者提出了度量感知層增長機制。
MLDF 是逐層構建的。算法 3 總結了 MLDF 訓練過程中度量感知層增長的步驟:

9大數據集6大度量指標完勝,周志華等提出深度森林處理多標籤學習


實驗
研究者在不同的多標籤分類基準數據集上測試了 MLDF 的性能。其目標是驗證 MLDF 方法可在不同度量指標上實現最優性能,前述兩種度量感知機制是必需的。此外,研究者通過不同角度的詳細實驗證明了 MLDF 的優點。
研究者選擇了 9 個來自不同應用領域、具備不同規模的多標籤分類基準數據集。下表展示了這些數據集的基本信息:

9大數據集6大度量指標完勝,周志華等提出深度森林處理多標籤學習

表 3:數據集描述:領域(Domain)、樣本數(m)、特徵數(d)和標籤數(l)。
在這 9 個基準數據集上,MLDF 在所有評估度量指標上均取得優秀的結果:98.46% 的情況下性能位列第一,1.54% 的情況下位列第二。根據 6 個度量指標的對比結果,MLDF 奪得第一的比例分別是 100.00%、96.29%、96.29%、100.00%、98.15%、100.00%。總之,MLDF 在大量基準數據集、多個評估指標上取得了最優性能,超過其他公認方法,這驗證了 MLDF 方法的有效性。

9大數據集6大度量指標完勝,周志華等提出深度森林處理多標籤學習

9大數據集6大度量指標完勝,周志華等提出深度森林處理多標籤學習

表 4:每個方法在 9 個數據集上的預測性能(均值 ± 標準差)。•(◦) 表示 MLDF 明顯優於(遜於)其他對比方法,評估標準是成對 t 檢驗,顯著性水平為 95%。↓ (↑) 表示值越小(大),性能越好。


分享到:


相關文章: