耗時2.5GPU年訓練12800個模型,谷歌研究人員揭示非耦合表示的奧祕

耗时2.5GPU年训练12800个模型,谷歌研究人员揭示非耦合表示的奥秘

From:Google AI 編譯:T.R

基於無監督的方式理解高維數據並將信息濃縮為有用的表示一直是深度學習領域研究的關鍵問題。其中一種方法是利用非耦合表示(disentangled representations)模型來捕捉場景中獨立變化的特徵。如果能夠實現對於各種獨立特徵的描述,機器學習系統就可以用於真實環境中的導航,機器人或無人車利用這種方法可以將環境解構成一系列元素,並利用通用的知識去理解先前未見過的場景。雖然非監督解耦方法已被廣泛應用於好奇驅動的探索、抽象推理、視覺概念學習和域適應的強化學習中,但最近進展卻無法讓我們清晰瞭解不同方法的性能和方法的侷限。

為了深入探索這一問題,谷歌的研究人員在ICML2019上發表了一篇大規模深入研究非監督非耦合表示的論文”Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations”,對近年來絕大多數的非監督解耦表示方法進行探索、利用2.5GPU年的算力在7個數據集上訓練了12000多個模型。基於大規模的實驗結果,研究人員對這一領域的一些假設產生了質疑,併為解耦學習的未來發展方向給出了建議。與此同時,研究人員還同時發佈了研究中所使用的代碼和上萬個預訓練模型,並封裝了disentanglement_lib

供研究者進行實驗復現和更深入的探索。

理解非耦合表示

為了更好地理解非耦合表示的本質,讓我一起來看看下面動圖中每個獨立變化的元素。下面的每一張圖代表了一個可以被編碼到矢量表示中的因子,它可以獨立控制圖像中每個語義元素的屬性。例如第一個可以控制地板的顏色,第二個則控制牆的顏色,最後一個則控制圖片的視角。

耗时2.5GPU年训练12800个模型,谷歌研究人员揭示非耦合表示的奥秘

解耦表示的目標在於建立起一個能夠獨立捕捉這些特徵的模型,並將這些特徵編碼到一個表示矢量中。下面的10個小圖展示了基於FactorVAE方法學習十維表示矢量的模型,圖中展示 了每一維對於圖像對應信息的捕捉。從各個圖中可以看出模型成功地解耦了地板、牆面的顏色,但是左下角的兩個圖片可以看到物體的顏色和大小的表示卻依然相關沒有解耦。

耗时2.5GPU年训练12800个模型,谷歌研究人员揭示非耦合表示的奥秘

大規模研究的發現

在直觀地理解了解耦表示之後,讓我們來看看科學家在研究中發現了什麼。這一領域基於變分自編碼器提出了各種各樣的非監督方法來學習非耦合表示,同時給出了許多不同的性能度量方法,但卻缺乏一個大規模的性能測評和對比研究。為此研究人員構建了一個大規模、公平性、可復現的實驗基準,並系統的測試了六種不同的模型(BetaVAE, AnnealedVAE, FactorVAE, DIP-VAE I/II and Beta-TCVAE)和解耦性能度量方法(BetaVAE score, FactorVAE score, MIG, SAP, Modularity and DCI Disentanglement),在7個數據集上進行了12800個模型的訓練後,研究人員們有了顛覆過去的發現:

首先,是非監督學習的方式。研究人員在大量的實驗後發現沒有可靠的證據表明模型可以通過無監督的方式學習到有效的解耦表示,隨機種子和超參數對於結構的影響甚至超過了模型的選擇。換句話說,即使你訓練的大量模型中有部分是解耦的,但這些解耦表示在不基於基準標籤的情況下是無從確認和識別的。此外好的超參數在不同的數據集上並不一致,這意味著沒有歸納偏置(inductive biases)是無法實現非監督解耦學習的(需要把對數據集的假設考慮進模型中)。

對於實驗中評測的模型和數據集,研究人員表示無法驗證解耦對於downstream tasks任務有利的假設(這一假設認為基於解耦表示可以利用更少的標籤來進行學習)。

下圖展示了研究中的一些發現,可以看到隨機種子在運行中的影響超過了模型的選擇(左)和正則化(右)的強度(更強的正則化並沒有帶來更多的解耦性能)。這意味著很差超參數作用下的好模型也許比很好超參數作用下的壞模型要好得多。

耗时2.5GPU年训练12800个模型,谷歌研究人员揭示非耦合表示的奥秘

未來研究方向

基於這些全新的發現和研究結果,研究人員為解耦表示領域提出了四個可能的方向:

1.在沒有歸納偏置的條件下給出非監督解耦表示學習的理論結果是不可能的,未來的研究應該更多地集中於歸納偏置的研究以及隱式和顯示監督在學習中所扮演的角色;

2.為橫跨多數據集的非監督模型尋找一個有效的歸納偏置將會成為關鍵的開放問題;

3.應該強調解耦學習在各個特定領域所帶來的實際應用價值,潛在的應用方向包括機器人、抽象推理和公平性等;

4.在各種多樣性數據集上的實驗應該保證可重複性。

代碼和工具包

為了讓其他研究人員更好的復現結構,論文同時還發布了 disentanglement_lib工具包,其中包含了實驗所需的模型、度量、訓練、預測以及可視化代碼工具。可以在命令行中用不到四行代碼就能復現是論文中所提到的模型,也可以方便地改造來驗證新的假設。最後 disentanglement_lib庫易於拓展和集成,易於創建新的模型,並用公平的可復現的比較進行檢驗。

由於復現所有的模型訓練需要2.5GPU年的算力,所以研究人員同時開放了論文中提到的一萬多個預訓練模型可以配合前述工具使用。

如果想要使用這個工具可以在這裡找到源碼:

https://github.com/google-research/disentanglement_lib

其中包含了以下內容:

模型: BetaVAE, FactorVAE, BetaTCVAE, DIP-VAE

度量: BetaVAE score, FactorVAE score, Mutual Information Gap, SAP score, DCI, MCE

數據集: dSprites, Color/Noisy/Scream-dSprites, SmallNORB, Cars3D, and Shapes3D

預訓練模型:10800 pretrained disentanglement models

依賴包:TensorFlow, Scipy, Numpy, Scikit-Learn, TFHub and Gin

git clone https://github.com/google-research/disentanglement_lib.git #下載git

cd disentanglement_lib #轉到源碼目錄

pip install .[tf_gpu] #安裝依賴文件

dlib_tests #驗證安裝

隨後下載對應的數據文件:

dlib_download_data#在.bashrc寫入路徑export DISENTANGLEMENT_LIB_DATA=<path>

隨後就可以愉快地復現實驗了,其中<code>?/<code>是0-12599間的模型序號:

<code>dlib_reproduce --model_num=>/<code>

進行評測:

<code>dlib_aggregate_results/<code>

相信這篇文章的研究結果和代碼工具將為接下來的研究提供更為明確的方向和便捷的途徑,促進非耦合表示學習領域的發展。

ref:

code:https://github.com/google-research/disentanglement_lib

Paper:https://arxiv.org/abs/1811.12359

3Dshapes:https://github.com/deepmind/3d-shapes

Inductive_bias:https://en.wikipedia.org/wiki/Inductive_bias

http://cvlab.cse.msu.edu/project-dr-gan.html

https://blog.csdn.net/qq_31239495/article/details/82659327

https://www.cnblogs.com/SuperLab/p/9837664.html

https://www.sohu.com/a/145751637_741733

https://dribbble.com/shots/5779059-Keep-Your-Family-Connected-With-Todoist

https://dribbble.com/shots/5572411-Design-Genome-project-Intuit

-The End-

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在三年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

[email protected]

點擊“❀在看”,讓更多朋友們看到吧~


分享到:


相關文章: