CVPR 提前看:視覺常識的最新研究進展

機器之心分析師網絡

作者:仵冀穎

編輯:Joni Zhong

2020 年 CVPR 將於 6 月 13 日至 19 日在西雅圖舉行。今年的 CVPR 有 6656 篇有效投稿,最終錄用的文章為 1470 篇,接收率為 22%。作為計算機視覺三大頂會之一,CVPR 今年的論文方向依然為目標檢測、目標跟蹤、圖像分割、人臉識別、姿態估計等等。CVPR 是老牌的視覺、圖像和模式識別等研究方向的頂會,本篇提前看中,讓我們在人工智能、深度學習熱潮的衝擊下,一起關注一下視覺常識的最新研究進展。

具體的,我們關注下面四篇文章:

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

2、ClusterFit: Improving Generalization of Visual Representations

3、Learning Representations by Predicting Bags of Visual Words

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

CVPR 提前看:視覺常識的最新研究進展

論文鏈接:https://arxiv.org/abs/1912.05699

這篇文章關注的是模型面對對抗樣本時的魯棒性的問題。在源任務和目標任務使用模型架構相同的情況,對擾動具有魯棒性的權重在不同任務間也具有魯棒性。本文作者選擇了輸入梯度(input gradient)作為不同任務間遷移的媒介,從而實現任務不可知和體系結構不可知的魯棒性遷移,稱為「輸入梯度對抗匹配(input gradient adversarial matching (IGAM))」。之所以選擇輸入梯度,是因為魯棒的對抗訓練(Adversarial Training, AT)模型得到明顯的輸入梯度,而非魯棒模型則給出有噪聲的輸入梯度,如圖 1。每個像素的輸入梯度定義了微小的變化如何影響模型的輸出,並且可以粗略估計出每個像素對於預測的重要性。

IGAM 的核心思想是:訓練一個具有對抗性目標的學生模型(student model)以愚弄鑑別器,使得鑑別器將學生模型的輸入梯度視為來自一個魯棒的教師模型(teacher model)的輸入梯度。為了在不同的任務之間遷移,教師模型的邏輯層首先對目標任務進行簡單微調,隨後,在極大極小博弈中,凍結教師模型的權重,使用單獨的鑑別器訓練學生模型,以便學生模型和教師模型的輸入梯度具有語義相似性。IGAM 的訓練包括兩個階段:1)在目標任務上微調魯棒的教師模型;2)在學生模型訓練過程中,對抗正則化輸入梯度。

CVPR 提前看:視覺常識的最新研究進展

圖 1. CIFAR-10 圖像非魯棒模型(中間)和魯棒模型(右)的輸入梯度

首先,根據目標任務微調教師模型 f_t 的權重。將模型權重參數化為Ψ,微調階段使用交叉熵損失訓練模型:

CVPR 提前看:視覺常識的最新研究進展

我們使用微調的結果替換模型中的最終邏輯層,除邏輯層外凍結教師模型 f_t 的所有權重。將邏輯層前的所有被凍結權重表示為Ψ.^+,替換後新的邏輯層表示為Ψ_logit,得到教師模型的微調目標函數為:

CVPR 提前看:視覺常識的最新研究進展

在對目標任務的邏輯層進行微調之後,教師模型的所有參數(Ψ)都固定不變。

其次,下一步我們在學生模型的訓練過程中進行輸入梯度匹配:在目標任務數據集 D_target 上表徵學生模型 f_s 的分類交叉熵損失為:

CVPR 提前看:視覺常識的最新研究進展

通過梯度反向傳播,得到學生模型 f_s 的輸入梯度為:

CVPR 提前看:視覺常識的最新研究進展

相應地,教師模型 f_t 的輸入梯度為:

CVPR 提前看:視覺常識的最新研究進展

參考 GAN(包含生成器和鑑別器模型的框架)的思想,為了使學生模型的輸入梯度與教師模型的輸入梯度相似,定義對抗正則化損失函數如下:

CVPR 提前看:視覺常識的最新研究進展

同時考慮在目標任務數據集 D_target 上表徵學生模型 f_s 的分類交叉熵損失函數 L_θ,xent,可以通過快速梯度下降(SGD)來優化,以近似得到如下的最佳參數:

CVPR 提前看:視覺常識的最新研究進展

鑑別器通過最大化對抗損失項來學習正確地區分輸入梯度。將 f_disc 參數化表示為φ,同樣使用 SGD 訓練鑑別器:

CVPR 提前看:視覺常識的最新研究進展

此外,本文還引入 L_diff 來懲罰從同一輸入圖像生成的 Js 和 Jt 之間的 L2-norm 差異:

CVPR 提前看:視覺常識的最新研究進展

最終得到完整的學生模型 f_s 的訓練目標函數為:

CVPR 提前看:視覺常識的最新研究進展

IGAM 的完整訓練過程如圖 2:

CVPR 提前看:視覺常識的最新研究進展

圖 2. 輸入梯度對抗匹配的訓練過程

以及,代碼如下:

CVPR 提前看:視覺常識的最新研究進展

最後,作者討論了在不同維度的任務之間遷移的問題。為了沿與輸入梯度相反方向的梯度傳播損失,使用仿射函數來調整目標任務圖像以匹配教師模型輸入層的維度:

CVPR 提前看:視覺常識的最新研究進展

隨後,可以計算教師模型的交叉熵損失如下:

CVPR 提前看:視覺常識的最新研究進展

由於仿射函數是連續可微的,可以通過反推得到輸入梯度:

CVPR 提前看:視覺常識的最新研究進展

圖 3 給出了令圖像與教師模型輸入維度的匹配轉換的三個示例,分別為圖像縮放、圖像切割和圖像填充。

CVPR 提前看:視覺常識的最新研究進展

圖 3. 令圖像與教師模型輸入維度的匹配轉換的示例

實驗分析

本文在由 MNIST、CIFAR-10、CIFAR-100 和 Tiny-ImageNet 組成的源-目標數據對上完成了 IGAM 實驗。圖 4 給出了不同數據集中的輸入梯度,與標準的模型相比,IGAM 模型的輸入梯度噪聲較少。表 1、表 2 以及圖 5 分別給出了不同數據庫中的實驗結果,這些結果表明 IGAM 可以在不同的任務之間,甚至在不同的模型結構之間傳遞魯棒性。

CVPR 提前看:視覺常識的最新研究進展

圖 4. 不同模型的輸入梯度

表 1. 遷移無噪和對抗性 CIFAR-10 測試樣本的準確度

CVPR 提前看:視覺常識的最新研究進展

表 2. CIFAR-100 測試樣本的準確度

CVPR 提前看:視覺常識的最新研究進展

CVPR 提前看:視覺常識的最新研究進展

圖 5. Tiny-ImageNet 測試樣本的準確度

小結

這篇文章討論的是在圖像處理的源任務和目標任務的模型架構相同的情況下,尋找在不同任務間具有魯棒性的視覺相關的指標。本文作者使用的是輸入梯度,並通過大量實驗驗證了其有效性。類似的,下一步研究可以探討其它衡量輸入梯度語義的指標,以及探討引入其它指標或特徵來實現對抗魯棒性。

2、ClusterFit: Improving Generalization of Visual Representations

CVPR 提前看:視覺常識的最新研究進展

論文鏈接:https://arxiv.org/abs/1912.03330

通過引入自由標註,弱自監督預訓練方法具有良好的適應性。但是,弱自監督預訓練方法需要預先逼近一個代理目標函數,以及,假定這個代理目標函數與隨後的轉移主任務一致,通過優化該代理目標函數就能夠生成合適的預先訓練的視覺表示。這一假設在充分監督的預訓練(fully-supervised pre-training)中基本能夠保證成立,但是對於弱自監督學習來說,這很難保證。這篇文章探討的問題是「有沒有一種方法可以解決弱自監督的預訓練階段對代理目標函數過度擬合問題?」作者的思路是:通過對代理目標學習到的特徵空間進行平滑處理(smooth)來解決這一問題。本文提出一種簡單的框架 ClusterFit (CF),該框架與經典的弱自監督預訓練(遷移學習)之間的關係見圖 1。一個經典的遷移學習框架包括兩個階段:預訓練+遷移學習(即圖 1 的上半部分),而 ClusterFit 相當於在這些階段之間增加了一個步驟,即圖 1 下半部分虛線引出的內容。在圖 1 中,D_cf 表示 CF 框架引入的數據庫,D_pre 是經典預訓練數據庫,D_tar 是測試目標數據庫,N_pre 表示經典預訓練網絡,N_cf 表示 CF 框架引入的網絡。

CVPR 提前看:視覺常識的最新研究進展

圖 1. 完整的 ClusterFit(CF)流程

CF 框架介紹

CF 主要包括兩步驟的工作,第一步,Cluster,給定一個使用代理目標函數和新數據集進行訓練的網絡,利用學習到的特徵空間對該數據集進行聚類。第二步,Fit,使用聚類作為偽標籤在這個新數據集上從頭開始訓練一個新網絡,見圖 2。

CVPR 提前看:視覺常識的最新研究進展

圖 2. ClusterFit (CF) 結構

首先得到一個在數據庫 Dpre 和標籤 Lpre 中預訓練的神經網絡 Npre。使用 Npre 的預處理層從另一個數據庫 Dcf 的數據中提取特徵。接下來,使用 k-means 將這些特性聚集到 K 組中,並給這些聚類分配新分類「標籤」(Lcf)。最後,基於 Dcf 利用交叉熵損失函數得到另一個網絡 Ncf。

作者討論了在受控設置下從「代理目標函數」訓練學習到的特徵的泛化程度。作者設置了這樣一個實驗場景:在 ImageNet-1K 數據庫中,人為添加合成的標籤噪聲,目的是使得代理目標函數的預訓練與下游的訓練任務儘量不同。圖 3 給出了不同的標籤噪聲 p 取值的 N_pre(即 CF 之前)和 N_cf(即 CF 之後)的遷移學習性能。在訓練前存在大量的標籤噪聲的情況下,CF 仍然能夠學習到可遷移的有效特性,對於更細粒度的目標任務,如 ImageNet-9K,CF 甚至可以改進有監督的 ResNet-50 模型(p=0)

CVPR 提前看:視覺常識的最新研究進展

圖 3. 控制實驗

實驗分析

在 11 個公開的、具有挑戰性的圖像和視頻基準數據集上,ClusterFit 顯示出顯著的性能提升,具體見表 1。ClusterFit(CF)適用於各種不同的預訓練方法、模式和結構。

表 1. 實驗結果彙總

CVPR 提前看:視覺常識的最新研究進展

在 CF 整體框架中,Npre、Ncf 的大小、預訓練標籤空間的顆粒度等,都會影響 CF 的效果。如圖 4 的實驗結果,在 Npre 容量較大的情況下,不同 K 取值能夠保證有 2%—3% 的持續改進。這表明,具有較大容量的 Npre 能夠生成更豐富的聚類視覺特徵,從而提高遷移學習性能。圖 5 中,遷移學習的性能隨著 Dpre 預訓練標籤數量的增加 log-線性的增長。增加標籤的數量是非常容易的,作者認為,該實驗結果證明了 CF 在設計一個通用的預訓練標籤空間任務中的實用性。

CVPR 提前看:視覺常識的最新研究進展

圖 4. Npre、Ncf 的選擇影響

CVPR 提前看:視覺常識的最新研究進展

圖 5. Npre 中標籤數量的影響

小結

CF 是一個可伸縮的、通用的框架,對模型架構、數據模式和監督學習的形式沒有任何限制。其中,聚類(Clustering)的處理可以看作是一種有效捕獲特徵空間中的視覺不變性的有損壓縮方案。在此基礎上,預測聚類的標籤使「重新學習」的網絡能夠學習到對原始預訓練目標不太敏感的特性,從而使這些特徵更易於「遷移」。作者提出了幾個下一步考慮的研究方向,包括:引入域知識、結合不同類型的預訓練模型完成多任務學習、在聚類過程中引入證據積累(evidence accumulation)方法等。

3、Learning Representations by Predicting Bags of Visual Words

CVPR 提前看:視覺常識的最新研究進展

論文鏈接:https://arxiv.org/abs/2002.12247

自監督表徵學習使用圖像中的可用信息(例如,預測兩個圖像塊的相對位置)定義的無標註預文本(unlabeled pretext)訓練卷積神經網絡(convnet),通過這樣一個基於預文本的預訓練,使得 convnet 能夠學習到對一些視覺任務有用的表示,例如圖像分類或對象檢測等任務所需的表示。

一個值得探討的問題是,究竟哪種自監督是有效的?

類似的,在自然語言處理(NLP)中,自監督方法在學習語言表示方面獲得了巨大的成功,如 BERT 預測句子中的缺失單詞等。NLP 與計算機視覺的不同之處在於:(1)與圖像像素相比,文字能夠表徵更多的高級語義概念,(2)文字是在離散空間中定義的,而圖像是在連續空間中定義的,這就導致對圖像像素的小擾動雖然不會改變圖像描繪的內容,但是卻會顯著的影響圖像重建任務的效果。

儘管二者之間存在很大的不同,本文作者嘗試借鑑 NLP 的思想,通過對離散視覺概念進行密集描述的方法,在圖像處理任務中構建離散目標函數。首先採用一種自監督方法(如旋轉預測法)訓練一個初始 convnet,學習捕獲中圖像特徵的比較抽象的特徵表示。其次,使用基於 k-均值的詞彙庫對基於 convnet 的特徵映射進行密集量化,從而得到基於離散編碼(即 k-均值聚類分配)的空間密集圖像描述,也就是所謂視覺單詞(visual words)。經過這次離散化的圖像處理後,使我們借鑑 NLP 的自監督學習變為可能,例如,可以很好地訓練一個類似於 BERT 的體系結構,該體系結構作為圖像中的圖像塊的一個子集輸入,預測缺失圖像塊的視覺單詞。本文作者從計算機視覺中所謂的詞袋(Bag-of-Words,BoW)模型中獲得靈感,提出將其作為一個自監督的任務訓練一個 convnet 來預測圖像視覺單詞的直方圖(也稱為 BoW 表示)。完整的基於視覺詞袋預測的自監督表示學習流程見圖 1。

CVPR 提前看:視覺常識的最新研究進展

圖 1. 視覺詞袋預測學習表示

給定一個訓練圖像 x,第一步,使用預先訓練的 convnet 創建一個基於空間密集視覺詞的描述 q(x)。利用 k-均值算法將 K 個聚類應用於從數據集中提取的一組特徵圖,通過優化以下目標,學習視覺詞彙的嵌入特徵:

CVPR 提前看:視覺常識的最新研究進展

令Φ^(x) 表示輸入圖像 x 的特徵圖,Φ^u(x) 表示對應第 u 個位置的特徵向量,對於每個位置 u,將相應的特徵向量Φ^u(x) 賦給其最近的(以平方歐式距離為單位)視覺詞嵌入 q^u(x):

CVPR 提前看:視覺常識的最新研究進展

第二步,創建圖像 x 的離散表示 q(x) 的 BoW 表示:y(x)。可以採用兩種表示形式:

CVPR 提前看:視覺常識的最新研究進展

CVPR 提前看:視覺常識的最新研究進展

y(x) 是一個 k 維向量,其中第 k 個元素 y_k(x) 編碼第 k 個視覺詞在圖像 x 中出現的次數。結果 y(x) 可以被看作是圖像 x 的第 K 個視覺詞的軟分類標籤。K 值可能較大,因此 BoW 表示 y(x) 是相當稀疏的。

第三步,基於提取的 BoW 表示,執行自監督任務:給定圖像 x,使用擾動算子 g(·) 生成擾動圖像 x˜=g(x),然後訓練模型基於擾動圖像 x˜「預測/重建」原始圖像 x 的 BoW 表示。本文使用的擾動算子 g(·):包括(1)顏色抖動(即圖像的亮度、對比度、飽和度和色調的隨機變化);(2)以概率 p 將圖像轉換為灰度;(3)隨機圖像裁剪;(4)比例或縱橫比失真;(5)水平翻轉。

定義一個預測層Ω(·),該預測層以Φ(x˜)作為輸入,輸出 BoW 中的 K 個視覺詞的 K 維 softmax 分佈。該預測層通過 liner-plus-softmax 層實現:

CVPR 提前看:視覺常識的最新研究進展

其中,W = [w_1,· · · ,w_K] 是線性層的 K 個 c 維權重向量(每個視覺詞一個)。為了學習 convnet 模型,最小化預測的 softmax 分佈Ω(Φ(x˜))和 BoW 分佈 y(x)之間的期望交叉熵損失:

CVPR 提前看:視覺常識的最新研究進展

CVPR 提前看:視覺常識的最新研究進展

其中,loss(α, β) 為交叉熵損失。

訓練前隨機初始化Φ(·),之後,在自監督學習過程中每次使用先前訓練的模型Φˆ(·)生成 BoW 表示。作者表示,第一次迭代後得到的模型已經具有較好的效果,因此,一般只需要執行一至兩次迭代就可以得到最終結果。

實驗分析

本文在 CIFAR-100、Mini-ImageNet、ImageNet、Places205、VOC07 分類和 V0C07+12 檢測數據庫中上評估了所提出的方法(BoWNet)。

表 1. CIFAR-100 線性分類及少樣本測試結果,其中,Φˆ(·)採用 WRN-28-10 架構實現

CVPR 提前看:視覺常識的最新研究進展

表 2. Mini-ImageNet-100 線性分類及少樣本測試結果,其中,Φˆ(·)採用 WRN-28-10 架構實現

CVPR 提前看:視覺常識的最新研究進展

表 1 和表 2 給出了 CIFAR-100 和 Mini-ImageNet 庫上的結果。通過比較 BoWNet 和 RotNet(用於構建 BoWNet)的性能,實驗結果顯示 BoWNet 將所有的評估指標至少提高了 10 個百分點,迭代使用 BoWNet(BoWNet×2 和 BoWNet×3)能夠進一步提高分類任務的準確度(除了 one-shot 的情況)。此外,在表 1 給出的 CIFAR100 線性分類任務的結果數據中,BoWNet 性能大大優於最近提出的 AMDIM。在表 2 給出的 Mini-ImageNet 庫的分類任務結果數據中,BoWNet 的性能與有監督 CC 模型的性能非常接近。

表 3. ResNet-50 線性支持向量機的 VOC07 圖像分類結果

CVPR 提前看:視覺常識的最新研究進展

在 VOC07 庫中使用 Goyal 等人提供的公開代碼對自監督方法進行基準測試,在凍結學習表示的基礎上訓練線性 SVM,其中,使用 VOC07 訓練+驗證數據子集進行訓練,使用 VOC07 測試子集進行測試。實驗中考慮了第三(conv4)和第四(conv5)殘餘分塊的特徵,結果見表 3。表 3 中的實驗數據顯示,BoWNet 優於所有先前的方法。

表 4. ImageNet 和 Places205 中線性分類準確度(使用 ResNet-50 結構)

CVPR 提前看:視覺常識的最新研究進展

使用基於凍結特徵表示的線性分類器對 1000-way ImageNet 和 205-way Places205 的分類任務進行評估。表 4 中的實驗數據顯示,BoWNet 優於所有先前的自監督方法。此外,在 Places205 中,使用本文方法訓練的 ImageNet 的 BoWNet 表示和 ImageNet 訓練得到的有監督表示之間的位置的精度差距僅為 0.9 points。作者認為,

這表明了對於「訓練階段看不到的」Places205 的類別,使用本文提出的方法得到的自監督表示與有監督方法得到的表示具有幾乎相同的泛化能力。

表 5. V0C07+12 的目標檢測任務結果(使用快速 R-CNN 微調結構)

CVPR 提前看:視覺常識的最新研究進展

將 BoWNet conv4 和 BoWNet conv5 與經典的和最新的自監督方法進行了比較,結果在表 5 中。有趣的是,在作者給出的這個實驗結果中,BoWNet 的性能優於有監督的 ImageNet 預訓練模型,後者在與 BoWNet 相同的條件下進行微調。基於這個實驗結果,作者認為,

本文提出的自監督表示比有監督表示更適用於 VOC 檢測任務。

小結

本文提出了一種新的表示學習方法 BoWNet,該方法以視覺詞彙的空間密集描述為目標進行自監督訓練。由本文的實驗和分析可知,BoWNet 是在無標籤監督的情況下學習的特徵上訓練的,但它獲得了很好的效果,甚至優於了初始模型。這一發現以及特徵空間的離散化處理(變成視覺詞彙)為後續的研究提供了新的思路。

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

CVPR 提前看:視覺常識的最新研究進展

論文鏈接:

https://arxiv.org/pdf/1912.13200

加法、減法、乘法和除法是數學中最基本的四種運算。眾所周知,與加法相比,乘法計算複雜度高、計算速度慢。在深度神經網絡中,度量輸入特徵與卷積濾波器的相似性是通過計算大量的浮點數相乘來實現的。在這篇文章中,作者提出了一種加法器網絡(AdderNet),在放棄卷積運算的同時最大限度地利用加法,即,給定一系列小模板作為「神經網絡中的濾波器」,使用 L1-norm 距離計算輸入信號和模板之間的差異。圖 1 中對比了經典 CNN 與本文提出的 AdderNet 提取特徵的可視化展示。CNN 是通過角度來區分不同類別的特徵,而使用 L1-norm 距離的 AdderNet 則是通過向不同類別的類中心聚集來區分別不同類別的特徵。由於減法可以通過其補碼通過加法實現,因此 L1-norm 距離可以是一種硬件友好的僅具有加法的度量,作者認為,它可以成為構造神經網絡的卷積的有效替代方法。

CVPR 提前看:視覺常識的最新研究進展

圖 1. AdderNets 和 CNNs 中特徵的可視化

模型介紹

給定一個深度神經網絡的中間層,考慮一個濾波器 F,其中核大小為 d,輸入通道為 c_in,輸出通道為 c_out。輸入特徵定義為 X,令 H 和 W 分別為特徵的高度和寬度,輸出特徵 Y 表示濾波器和輸入特徵之間的相似性,得到公式:

CVPR 提前看:視覺常識的最新研究進展

其中,S(·,·)表示預定義的相似性度量。如果使用互相關性作為距離度量,即 S(x,y)=x×y,則上式為卷積運算。此外,還有許多其他的度量能夠用來測量濾波器 F 和輸入特徵 X 之間的距離。然而,這些度量中的大多數涉及乘法運算,具有較高的計算成本。因此,本文作者使用加法測量距離。L1-norm 距離計算的是兩個矢量表示的絕對差之和,它不包含乘法運算。此時,相似性計算公式為:

CVPR 提前看:視覺常識的最新研究進展

經典 CNN 中,作為輸入特徵映射中的值的加權和,卷積濾波器的輸出可以是正的或負的,但是加法器濾波器的輸出總是負的。因此,引入批量歸一化將加法器的輸出層規範化到一個適當的範圍內,然後在所提出的加法器中使用經典 CNN 中使用的所有激活函數。儘管在批量規範化層中涉及乘法運算,但其計算成本明顯低於卷積層,可以省略。

模型訓練

神經網絡利用 BP 反向傳播計算濾波器的梯度,利用隨機梯度下降更新參數。在經典 CNN 中,輸出特性 Y 相對於濾波器 F 的偏導數計算為:

CVPR 提前看:視覺常識的最新研究進展

其中,i∈[m,m+d],j∈[n,n+d]。在 AdderNet 中,輸出特性 Y 相對於濾波器 F 的偏導數計算為:

CVPR 提前看:視覺常識的最新研究進展

其中 sgn(·)表示符號函數,梯度值只能取 1、0 或-1。然而,signSGD 幾乎不接受最陡下降的方向,使用 signSGD 對大量參數的神經網絡進行優化是不合適的。本文使用下式優化:

CVPR 提前看:視覺常識的最新研究進展

除了濾波器 F 的梯度外,輸入特性 X 的梯度對於參數的更新也很重要。因此,本文也使用上式計算 X 的梯度。為了防止計算 X 梯度時出現梯度爆炸的問題,將 X 的梯度限制在 [-1,1] 區間中。輸出特性 Y 相對於輸入特性 X 的偏導數計算為:

CVPR 提前看:視覺常識的最新研究進展

其中,HT(·)表示 HardTanh 函數:

CVPR 提前看:視覺常識的最新研究進展

自適應學習速率尺度

經典 CNN 中,假設權值和輸入特徵是獨立的,並且在正態分佈下分佈一致,則輸出方差可以粗略估計為:

CVPR 提前看:視覺常識的最新研究進展

而對於 AdderNet,輸出方差可以近似為:

CVPR 提前看:視覺常識的最新研究進展

其中 F 和 X 服從正態分佈。由此可見,與經典 CNN 較小的 Var 值不同,AdderNet 中的加法運算會導致加法器的輸出方差數值較大。本文提出了一種自適應學習方法,即在 AdderNet 的不同層中採用自適應的學習效率,具體的,AdderNet 中每層 (l) 的更新為:

CVPR 提前看:視覺常識的最新研究進展

其中,γ為整個神經網絡的全局學習率,∆L(F_l) 是濾波器的梯度,α_l 為相應的局部學習率,具體的:

CVPR 提前看:視覺常識的最新研究進展

其中,k 表示 F_l 中平均 L_2 範數的元素個數,η是控制加法器濾波器學習速率的超參數。

通過自適應學習速率調整,可以用幾乎相同的步驟更新不同層的加法器濾波器。算法 1 給出 AdderNet 的訓練過程。

CVPR 提前看:視覺常識的最新研究進展

實驗結果

AdderNet 在大規模神經網絡和數據集上取得了非常好的表現,包括 MNIST,CIFAR,ImageNet。在 MNIST 中的分類結果如表 1。與 CNNs 相比,AdderNet 在沒有進行乘法計算的前提下,獲得了幾乎相同的結果。

表 1. CIFAR-10 和 CIFAR-100 數據集上的分類結果

CVPR 提前看:視覺常識的最新研究進展

表 2.ImageNet 數據集上的分類結果

CVPR 提前看:視覺常識的最新研究進展

在 ImageNet 中的分類結果如表 2。與 CNNs 相比,AdderNet 在沒有進行乘法計算的前提下,Top-1 和 Top-5 的結果與 CNN 接近。而 BNN 儘管能夠實現高計算速率和高壓縮比,但是分類效果較差。

CVPR 提前看:視覺常識的最新研究進展

圖 2. MNIST 數據集上 LeNet-5-BN 第一層過濾器的可視化。這兩種方法都能為圖像分類提取有用的特徵

圖 2 給出的是 MNIST 數據集上的可視化效果。儘管 AdderNet 和 CNN 使用不同的距離度量,但是 AdderNet 的濾波器仍然能夠提取與卷積濾波器所提取的相似的特徵。可視化實驗進一步證明,AdderNet 能有效地從輸入圖像和特徵中提取有用信息。

小結

本文探討的是在深度神經網絡中使用加法計算替代乘法計算的可能性,給出的實驗結果證明了 AdderNet 能在不使用乘法計算的前提下,獲得與經典 CNN 相當的分類效果,此外所提取特徵的可視化也顯示出 AdderNet 所提取的特徵與經典 CNN 類似。不過,在這篇文章中,作者並沒有給出關於計算速率、時長、消耗的定量分析結果。作者提出,下一步的研究計劃是分析 AdderNet 的量化結果,以實現更高的速度和更低的能量消耗。此外,將探討 AdderNet 的通用性,將其應用於檢測和分割任務中。

作者介紹:仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。

關於機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智能專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。


分享到:


相關文章: