康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法


康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法

作者來自將門機器學習社群:康奈爾大學研究團隊


本文為將門好聲音第41期,也是NeurlPS 2019系列分享的第·10·期。

作者是來自將門機器學習社群,康奈爾大學的Cornell SE(3) and Machine Learning Group,這次要介紹的是他們發表在NeurIPS 2019的工作——位置歸一化


康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法

論文鏈接:

https://papers.nips.cc/paper/8440-positional-normalization.pdf

Github:

https://github.com/Boyiliee/PONO


這項工作主要集中於發現對位置歸一化提取信息的含義及如何在生成網絡中高效利用這層信息。以往的研究大多都是認為對特徵進行歸一化之後可以加速網絡訓練和提高網絡準確率,卻忽視了其實被normalize的信息含有特徵中重要的統計值,如果有效應用,可以對生成網絡乃至分類網絡產生關鍵性有利的影響。目前已被應用於生成網絡(GAN,圖像去霧等),語義分割,圖像分類等應用當中。


隨著生成模型在計算機視覺中的普遍應用,在圖像風格遷移等方面都有了突破性的進展。然而現有的技術仍然不能有效學習生成物體的結構信息。因此在數據不足的情況下,生成模型很可能出現訓練失敗的情況。在這篇文章中,研究人員基於對圖像中間特徵的深入研究,提出有效利用歸一化信息從而提取圖像特徵中的結構性信息,

其本質上是要求從已有特徵中提取有效信息再傳遞到神經網絡後層,以減少網絡訓練中的結構信息丟失。


康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法


PositionalNormalization (PONO)


研究人員定義從另外一個維度對中間特徵每個位置進行歸一化,稱之為Positional Normalization (PONO),實驗發現PONO可以有效的提取特徵裡的結構信息。從圖中我們可以看到由PONO提取出來的平均值mean()和標準差std()可以有效的表徵特徵中的結構信息。研究人員認為,這兩個重要的moment信息將在包括GAN 在內的生成網絡中起著重要的作用。

康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法

Moment Shortcut (MS)


Moment Shortcut (MS) 作為和residual connection 和 concatenation 並行的一種重新利用信息的方式,與這兩個不同的是,Moment Shortcut不要求將所有信息返回到下一層,而是將部分信息返回於下一層。


康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法

上述圖展示瞭如何在網絡中使用Moment Shortcut


該圖顯示瞭如何在生成網絡中結合PONO將前層網絡的結構信息µ和σ提取出來作為新特徵的參數β和γ放入後層,以有效緩解生成網絡的結構信息丟失的問題。具體放回類似於denormalize的操作,見以下公式:

康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法

文中把這種算法簡稱為PONO-MS。與residual connection相似,PONO-MS不會造成額外的參數學習,計算量也十分小。PONO-MS直接將µ和σ作為β和γ傳輸到後層網絡,考慮到各種task的不同,文中也提出了優化的版本PONO-DMS。在得到β和γ之前,將µ和σ輸入一層ConvNet中進行自適應學習,以得到更符合相應task的參數。


與各類歸一化方法之間的比較


歸一化(Normalization)算法的概念主要是將特徵看作一個分佈,將其中的平均值(µ)及標準差(σ)去除,根據使用不同的維度,則有不同的意義。BatchNorm是將某單一特徵在整個batch中做挑整,進而增加網絡學習的效率;LayerNorm是針對整層的特徵一起調整,不再考慮batch中其他example的特徵,特別能強化RNN與Transformer這類在NLP方面的模型;GroupNorm則是針對batch size很小、BatchNorm無法穩定地發揮作用時,提出瞭解決的方案。根據研究人員的說明,InstanceNorm以往用於分離圖像中的風格,而這次提出的PONO則是著重在提取結構信息。

人們在使用歸一化經常還會再進行反歸一化(Denormalization)的操作,文中的Moment Shortcut(MS)則屬此類。這操作最早是在BatchNorm的文章中被提出,作者增加了兩個新參數β和γ用來學習新的平均值與標準差。後來的Conditional InstanceNorm則是給予網絡n組β和γ來學習n種圖像風格。AdaIN則提出直接交換將一張圖片的µ與σ當作另一張圖片的β和γ,來達成風格替換。這直接將µ與σ當作β和γ的方式與MS相似,其中的差別在於前者用於替換風格,後者則用於直接保留結構信息。作者在實驗中發現兩種方法可以相輔相成。之後的Dyanmic LayerNorm則是使用另一個網絡來生成β和γ,同樣的方法也使用於後來MUNIT與StyleGAN中的新版AdaIN以及SPADE。此方法在文中的Dynamic Moment Shortcut(DMS)也同樣被使用。


實驗結果


文章主要集中在對於Image Translation相關工作的探索。結果顯示,加入PONO-MS能夠有效提高GAN一類網絡的生成性能。

康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法

同時,PONO-MS也能有效使一些failure的case起死回生。以目前非常火的image translation的一個GAN應用為例:我們分別提取貓和狗的結構信息和類別信息,旨在於生成有著貓的結構的狗和有著狗的結構的貓(如圖所示)。當我們用小數量級dataset來訓練網絡的時候我們可以看到網絡無法學習到我們需要的信息,造成訓練失敗。而令人驚訝的是,當加入PONO-MS之後,網絡可以成功學習到對應信息,使一個失敗的例子能夠起死回生。


康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法

總 結


PONO目前已被應用於生成網絡(GAN,圖像去霧等),語義分割,圖像分類等應用當中。

具體請參見Github:

https://github.com/Boyiliee/PONO

其中最近該研究團隊將位置歸一化算法應用於數據增強達到了可觀的效果;

具體請詳見:

https://github.com/Boyiliee/MoEx

*備註:相關citation見論文中reference。

關於 · 團隊&個人主頁

Cornell SE(3) and Machine Learning Group

Boyi Li

https://sites.google.com/site/boyilics/home

Felix Wu

https://scholar.google.com.tw/citations?user=sNL8SSoAAAAJ&hl=en

Kilian Q. Weinberger

http://kilian.cs.cornell.edu/index.html

Serge Belongie

https://vision.cornell.edu/se3/people/serge-belongie/


康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法

-The End-

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

康奈爾大學提出利用歸一化信息, 提取圖像特徵中結構性信息新方法


分享到:


相關文章: