商湯提出基於空間修剪的 NAS 算法

CVPR 2020 | 商湯提出基於空間修剪的 NAS 算法

本文介紹的是CVPR2020論文《IMPROVING ONE-SHOT NAS BY SUPPRESSING THE POSTERIOR FADING》,作者來自商湯 AutoML 團隊。

作者 | 商 湯

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

論文地址:http://xxx.itp.ac.cn/pdf/1910.02543v1

商湯AutoML團隊提出的首個基於參數後驗分佈特性來提高網絡機構搜索性能的工作,該工作為解決網絡機構搜索中快速代理的有效性問題提供了新的思路。

同時該團隊也公開了在ImageNet數據集上的兩種不同尺寸的模型,作為模型結構搜索和設計的baseline。相比之前的工作,PC-NAS在結構搜索代理的有效性上有明顯的提升。

1 動機

該文章提供了一個分析One-shot參數後驗分佈的方式,在得出搜索空間中存在的結構越多參數後驗分佈偏離得越多的結論後,提出了一個基於空間修剪的NAS算法。該工作的研究動機在於:

1. 當前網絡結構搜索算法(NAS)已經可以應用應用。其大量的計算量需求成為了當前最大的問題。然而解決計算量問題的方法目前還不完美,使用共享參數的超網做代理成為了目前比較普遍的選擇。但這類方法受限於代理和真實情況的偏差。

2. 根據觀察和分析,共享參數在訓練過程中得到的參數後驗與單個模型獨立訓練的參數分佈有一定的規律。接下來將詳細介紹該工作的觀察和分析。

根據貝葉斯模型選擇(以及一定的假設),該工作對共享權重對結構排序帶來的影響給出了兩個觀察:

  • 共享權重的參數分佈與不共享的retrain時刻的結構參數分佈的關係可以用KL散度來衡量。

  • 可供選擇的模型數量上升時,該散度隨著結結構數量增加而增加。

2 算法

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

為了在訓練權重共享的同時,減小權重共享的網絡結構數量,我們提出一種訓練時的空間修剪方法。假設我們目前有一個如上圖(a)所示的超網,每一層擁有一個mixop(mixop是n個候選op的合稱)於是該超網中總共包含n^層數個不同的結構。為了進行搜索空間的修剪,我們提出了 部分結構池的概念(partialmodel pool)。假設網絡結構有L層,部分結構池在整個搜索過程中將會有L個狀態(Stage)。每從L-1狀態到L狀態,部分結構池中的子結構的層數將增長1。

如圖(b),此時Stage=2,在部分結構池中有兩個層數為2的結構,通過節點編號命名為(1,1)和(0,1)。為了進行至Stage=3,我們會評估2x3個部分結構的潛力,分別是(1,1, 0),(1,1,1),(1,1,2),以及(0,1,0),(0,1,1),(0,1,2)。如何評價部分網絡的優劣或者說潛力呢?

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

為此我們定義 Potential 是在部分結構中為指定的mixop進行隨機採樣的結構的平均validation set acc。

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

搜索結果

根據上述搜索過程我們分別在一大一小兩個網絡空間中進行搜索。小搜索空間中每層包含9種operator,大搜索空間包含每層19種operator。我們把大搜索空間的搜索結果命名為PC-NAS-L,小搜索空間的模型命名為PC-NAS-S。

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

上表可以看出,在同等的gpu lantency下,我們的PC-NAS可以超過或不低於所有baseline。

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

在檢測任務中可以看驗證模型的魯棒性。

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

3 代理保序性

那麼我們採用的搜索空間收縮算法是否有效的提高了代理的有效性呢?

我們將同一套代碼,使用從頭至尾採用one-shot方法訓練和使用我們的算法訓練的shareweights進行了比較。對於最後存在在最後一個stage中的部分結構模型所拓展的結構,還有我們隨機在one-shot方法中採的相同數量的結構,這兩個群體之間,真實acc和proxyacc之間的相關性。我們可以看到,在最後階段,相關性比one-shot方法要有一定優勢。

References[1] Georege Adam and JonathanLorraine. Understanding neural architecture search techniques. arXiv preprintarXiv:1904.00438, 2019.[2] Bowen Baker, Otkrist Gupta,Nikhil Naik, and Ramesh Raskar. Designing neural network architectures usingreinforcement learning. International Conference on Learning Representations,2017a.[3] Gabriel Bender, Pieter-Jan Kindermans, BarretZoph, Vijay Vasudevan, and Quoc V. Le. Understanding and simplifying one-shotarchitecture search. ICML, 2018.CVPR 2020 系列論文解讀

01. PolarMask:將實例分割統一到FCN,有望在工業界大規模應用

02. RandLA-Net:大場景三維點雲語義分割新框架(已開源)

03. 17篇入選CVPR 2020,騰訊優圖 9 篇精選論文詳解

04. 化繁為簡,弱監督目標定位領域的新SOTA - 偽監督目標定位方法

05. 挑戰 11 種 GAN的圖像真偽,DeepFake鑑別一點都不難

06. 看圖說話之隨心所欲:細粒度可控的圖像描述自動生成

07. PQ-NET:序列化的三維形狀生成網絡

08. 視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

09. 室內設計師失業?針對語言描述的自動三維場景設計算法

10. 深度視覺推理2.0:組合式目標指代理解

11. 用無監督強化學習方法來獲得遷移能力

12. 細粒度文本視頻跨模態檢索

13. IR-Net: 信息保留的二值神經網絡(已開源)

14. 曠視研究院提出Circle Loss,革新深度特徵學習範式

15. ACGPN: 基於圖像的虛擬換裝新思路

16. 雙邊分支網絡BBN:攻堅長尾分佈的現實世界任務

17. 基於點雲的3D物體檢測新框架

18. MetaFuse:用於人體姿態估計的預訓練信息融合模型

19. 針對VI-ReID的分層跨模態行人識別

20. 8比特數值也能訓練模型?商湯提出訓練加速新算法

21. 挖坑等跳,FineGym,一個面向細粒度動作分析的層級化高質量數據集

22. 神奇的自監督場景去遮擋

AI 科技評論系列直播

1、ACL 2020 - 復旦大學系列解讀

直播主題:不同粒度的抽取式文本摘要系統

主講人:王丹青、鐘鳴

直播時間:4月 25 日,(週一晚) 20:00整。

直播主題:結合詞典的中文命名實體識別【ACL 2020 - 復旦大學系列解讀之(二)】

主講人:馬若恬, 李孝男

直播時間:4月 26 日,(週一晚) 20:00整。

直播主題:ACL 2020 | 基於對抗樣本的依存句法模型魯棒性分析

【ACL 2020 - 復旦大學系列解讀之(三)】

主講人:曾捷航

直播時間:4月 27 日,(週一晚) 20:00整。

2、ICLR 2020 系列直播

直播主題:ICLR 2020丨Action Semantics Network: Considering the Effects of Actions in Multiagent Systems

主講人:王維壎

回放鏈接:http://mooc.yanxishe.com/open/course/793

直播主題:ICLR 2020丨通過負採樣從專家數據中學習自我糾正的策略和價值函數

主講人:羅雨屏

回放鏈接:http://mooc.yanxishe.com/open/course/802(回放時間:4月25日上午10點)

直播主題:ICLR 2020丨分段線性激活函數塑造了神經網絡損失曲面

主講人:何鳳翔

直播時間:4月24日 (週五晚) 20:00整

如何加入?

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法


分享到:


相關文章: