何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

何愷明的一作論文,又刷新了7項分割檢測任務。

這一次,涉及的是無監督表徵學習。這一方法廣泛應用在NLP領域,但尚未在計算機視覺中引起注意。

Facebook AI研究院的何愷明團隊受此啟發,採用對比損失(constrative loss)法,即從圖像數據中採樣鍵(或令牌),並由經過訓練、與字典相匹配的編碼器表徵。

新的方法,名叫MoCo(Momentum Contrast)。其預訓練模型經過微調可以遷移到不同的任務上。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

在ImageNet、CoCo等數據集上,MoCo甚至在某些情況下大大超越了監督預訓練模型。

研究團隊表示:

這表明,在許多視覺任務中,無監督和有監督的表徵學習之間的鴻溝已經大大消除。

方法原理

那麼,MoCo究竟是怎麼實現的呢?

像查字典一樣的對比學習

對比學習(constrastive learning),可以看做是在訓練編碼器來完成字典查找任務。

假設字典中有一個與編碼查詢(query)相匹配的鍵(key,表示為k+)。對比損失函數中,當查詢與k+相似,且與所有其他鍵不同時,函數值較低。

在這篇論文中,研究人員採用的對比損失函數如下:

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

這是一種無監督目標函數,用來訓練表徵查詢和鍵的編碼器網絡。

動量對比(MoCo)

用一句話來說,對比學習就是一種在高連續性輸入(如圖像)上構建離散字典的方法。

MoCo方法的核心,是將上述字典作為數據樣本隊列來進行維護,這樣一來,字典就能重複使用已編碼的鍵,字典就可以比通常更大,並且可以靈活地、獨立地設置為超參數。

這是一本動態字典,其樣本會逐漸被替換,但始終代表著所有數據的抽樣子集。

其次,需要考慮的是更新編碼器的問題。

使用隊列可以讓字典變大,但也會讓通過反向傳播來更新鍵編碼器這件事變得更困難。

研究人員假設這種困難是編碼器的快速變化降低了鍵的表徵一致性所造成的,於是,他們提出了動量更新

的方法。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

在這個公式中,只有θq是通過反向傳播更新的。動量更新會使得θk的演化比θq更加平穩。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

在實驗中,研究人員還發現,相對較大的動量(m=0.999)會比較小的動量(m=0.9)要好得多。這表明緩慢演變的鍵編碼器是利用隊列的關鍵所在。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

△三種不同對比損失機制,僅展示一對查詢和鍵的關係

從這張圖中,可以看到三種不同對比損失機制的不同。

端到端方法,是通過反向傳播對計算查詢和鍵的表徵進行端到端更新。

Memory bank方法中,鍵的表徵是從存儲庫中提取的。

而MoCo方法則通過基於動量更新的編碼器對鍵進行動態編碼,並維持鍵的隊列。

實驗結果

MoCo的表現究竟如何,還是要用數據說話。

研究團隊在ImageNet-1M和Instagram-1B這兩個數據集上進行了測試。

ImageNet-1M是ImageNet的訓練集,包含1000種不同類別的128萬張圖片。而Instagram-1B數據集則包含10億(940M)Instagram上的公開圖像。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

在三種不同機制的對比中,字典規模越大,三種方法的表現就越好。

當K較小時,端到端方法的表現與MoCo差不多,但其批處理大小受限,在8個32GB的V100上,最大的mini-batch僅為1024。並且,即使存儲空間足夠大,由於端到端方法必須滿足線性學習率縮放規則,否則精度會下降,其增長趨勢能否推及到更大規模是存疑的。

而memory bank的準確率則始終比MoCo低了2%以上。

在ImageNet上,MoCo表現出色。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

並且在針對不同的任務進行微調之後,MoCo可以很好地遷移到下游任務中,表現甚至優於有監督預訓練模型。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

而PASCAL VOC,COCO等其他數據集上的7種檢測/細分任務中,MoCo的表現也優於其他有監督預訓練模型。甚至有十分明顯的提升。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

另外,在Instagram語料庫上進行預訓練的MoCo性能始終優於在ImageNet上訓練的結果,這表明MoCo非常適合大型的、相對未整理的數據。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

Facebook AI研究院的華人們

論文的研究團隊,來自Facebook AI研究院(FAIR)。

一作何愷明,想必大家都不陌生。作為Mask R-CNN的主要提出者,他曾三次斬獲頂會最佳論文。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

何愷明大神加持,論文的其他幾位作者實力也不容小覷。

Haoqi Fan,畢業於卡內基梅隆大學機器人學院,是FAIR的研究工程師。研究領域是計算機視覺和深度學習。有多篇論文入選ICCV、CVPR、AAAI等國際頂會。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

吳育昕,FAIR研究工程師,本科畢業於清華大學,2017年於卡內基梅隆大學獲得計算機視覺碩士學位。本科期間就曾在谷歌、曠視實習。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

謝賽寧,本科畢業於上海交通大學,18年獲加州大學聖迭戈分校CS博士學位。現在是FAIR的研究科學家。

另外一位論文作者Ross Girshick,同樣是FAIR的研究科學家。博士畢業於芝加哥大學,曾在UC伯克利擔任博士後研究員。

何愷明最新一作論文:無監督勝有監督,刷新7項檢測分割任務

傳送門

論文地址:
https://arxiv.org/abs/1911.05722

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: