阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

乾明 十三 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

輸入的數據量更小,深度神經網絡在圖像分類/分割任務上的精度反而提升了。

這就是阿里達摩院提出的提出的圖像分析新方法:“頻域學習”(Learning in the Frequency Domain)。

核心要義,是省略圖像壓縮/解壓縮中計算量最大的步驟,直接利用頻域特徵來進行圖像推理,減少系統中模塊之間的數據傳輸量,從而提升系統性能。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

更難得可貴的是,如此成果出自同學少年——阿里達摩院實習生之手,已被CVPR 2020接收。

他們在ImageNet分類任務上測試了方法的有效性:

輸入數據相同的情況下,ResNet-50和MobileNetV2分別實現了1.41%和0.66%的top-1精度改進。

即使只有一半大小的輸入數據,ResNet-50的top-1精度仍然能夠提高1%。

不僅僅是圖像分類,在COCO數據集上,只使用一半大小的輸入數據,“頻域學習”的方法就能提升何愷明Mask R-CNN的圖像分割結果。

對於當前端側高效部署人工智能算法的需求來說,輸入數據量更小,但讓深度神經網絡精度更高的“頻域學習”方法,無疑是提供了一個新思路。

為什麼要在頻域上學習?

計算資源和內存是有限制的,大多數卷積神經網絡模型,只能接受低分辨率的RGB圖像(例如,224x224)。

因此,總是要經過一個壓縮的過程,傳統圖像分析系統的基本框架如下。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

圖像輸入(In)通常是RGB的空間域信號,在編碼端經過RGB-to-YCbCr的轉化、離散餘弦變換(DCT)、量化(Quantization), 以及熵編碼(Entropy coding),得到壓縮後用來傳輸的信號。

Y表示亮度,Cb、Cr分別表示藍色和紅色的濃度偏移量成份。

這個信號傳輸到解碼端,經過對應的熵解碼(Entropy decoding)、反量化(dequantization)、逆離散餘弦變換(IDCT)、YCbCr-to-RGB轉化得到原圖像的重建圖像

但這樣的過程,不可避免地會出現信息丟失和精度降低。

此前有學者提出過解決辦法,比如用學習任務感知的縮小網絡來減少信息丟失,但這些網絡通常基於特定任務,需要額外的計算,並不利於實際應用。

那有沒有一種方法,過濾掉空間域冗餘的信息,來節省解碼端到推理引擎間的數據帶寬呢?

這就是達摩院“頻域中學習”解決的核心問題。

他們提出在頻域,即離散餘弦變換域(DCT)中重塑高分辨率圖像,而不是在空間域調整它們的大小,然後將重新形成的DCT係數提供給卷積神經網絡模型進行推理,從而解決了這些問題。

同時,這個方法幾乎不需要修改現有的卷積神經網絡模型,還是以RGB圖像作為輸入。達摩院的研究人員認為,它可以作為常規的數據預處理管道的替代品。

整體上來看,“頻域學習”由數據預處理管道和一個輸入數據大小剪枝方法組成。

節省計算量:用頻域信息進行機器學習

第一個可以改進的地方,就是節省計算量

還是以上圖為例,在整個圖像分析系統中,除去最後的圖像推理引擎,前期的壓縮、傳輸、解壓縮的瓶頸在於其中的DCT和IDCT模塊,因為這兩個變換是矩陣變換,而其他的操作基本都是基於點的操作。

若是能夠減少,甚至省略這兩個模塊,將會對圖像分析系統的前半部分帶來極大的性能提升。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

也就是說,輸入到神經網絡的數據,將不再是RGB顏色空間,而是YCbCr顏色空間。

以Y通道為例,假設圖像壓縮標準中默認的8x8作為塊的尺寸(blocksize)。那麼,對於每一個塊(block),就會得到64個DCT的信號,對應了64個不同的頻率分量。

若原始圖像的尺寸是W x H,那麼將會有W/8 x H/8 個DCT信號組成的塊。每個塊中相同位置的頻率分量可以組成一個尺寸為W/8 x H/8的特徵圖片(feature map),這樣就會產生8x8=64個特徵圖片。

同樣的對於Cb和Cr通道,也可以各自產生64個特徵圖片,共計64x3=192個,如下圖所示。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

接下來就是讓特徵圖片的尺寸和神經網絡的尺寸吻合

以ResNet-50為例,通常接受的圖片輸入尺寸為224x224,經過一次卷積層(stride=2)和池化之後,網絡的特徵圖尺寸為56x56,和產生的頻率信號特徵圖尺寸吻合。

可以將192個56x56的頻域特徵圖,全部或者部分直接接在ResNet-50的第一個殘差塊(Residue Block)之前,從而達到不改變ResNet-50的結構,卻實現從頻域做機器識別的目的,如下圖所示。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

值得注意的是,由於做了8x8的DCT變換,實際輸入的圖片大小為448x448,是標準ResNet-50輸入的兩倍

節省帶寬:頻域信息重要性提取

節省帶寬也是性能提高的方法,因為某些頻率通道對推斷準確性具有更大的影響。

所以,只保留那些最重要的頻率通道,並將它們傳輸到GPU/AI加速器進行推理,是可行的。

這一步是通過在機器學習中添加gate的方法,來學習每一個特徵圖片的重要性。

在訓練中,不僅能得出用於圖像推理的神經網絡中的權重,同時每一個特徵圖的重要性也被確定。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

現在擁有了選擇重要的頻率通道的方式。有兩種方案來減少從圖像解碼模塊到圖像推理引擎的數據帶寬,分別是動態(Dynamic)方式和靜態(Static)方式。

所謂動態方式,就是每一個頻率分量的選擇開關由當前輸入的圖像決定,這種方法可以自適應每一次圖像推理(inference)的不同輸入。

而靜態方式,就是通過訓練(training)得到最重要的一些頻率分量。

這種靜態方式在推理的時候無需選擇開關的網絡,不僅可以節省圖像解碼模塊到圖像推理引擎的帶寬,還可以在編碼模塊中忽略不重要的頻率分量,進而減少圖像編碼的計算量、延時,以及網絡傳輸的帶寬。

他們提出的實驗結果表明,靜態方式下,輸入數據量減少87.5%,CNN 模型仍能保持相同的精度。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

總的來說,就是利用頻域特徵來進行圖像推理,從而省略頻域到空間域的轉換,因為這個轉換是圖像壓縮/解壓縮中計算量最大的步驟。

同時可以在頻域選擇重要的信息,進一步減少系統中模塊之間的數據傳輸量,從而提升整個系統的性能。

所以結果如何?

精度更高,輸入數據量卻減少

實驗主要在圖像分類實例分割——兩個極具代表性的機器學習任務進行。

在圖像分類任務中,採用ImageNet(ILSVRC-2012)作為數據集,ResNet-50和MobileNetV2作為CNN模型。

經過訓練,得到了一張不同頻率分量重要性的熱力圖,描述了對應192個頻率分量的重要性程度。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

可以看出,Y(亮度)通道的重要性高於Cb和Cr通道,同時低頻分量的重要性高於高頻分量。

這樣,就可以利用“頻域學習”方法,一次訓練了解如何分配帶寬資源。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

從結果可以看出,與基線 ResNet-50相比,使用所有頻率通道時,Top-1準確率提高了1.4% 。

值得注意的是,DCT-48和 DCT-24分別選擇了48和24個頻率通道,輸入數據大小分別相當於基線 ResNet-50的一半。

對於只有一半輸入數據大小的 DCT-24來說,Top-1的精度仍然提高了約1% 。

再用MobileNetV2作為基準CNN模型,採用同樣的原理做實驗,得到結果如下:

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

選擇32和24個頻率通道時,Top-1準確率分別提高了0.664% 和0.58% 。

對於實例分割任務,採用了COCO數據集,並使用Mask RCNN作為深度神經網絡結構,訓練得到的192個頻率分量的熱力圖如下:

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

實驗結果表明,當輸入數據大小相等(DCT-48)或較小(DCT-24)時,該方法優於基於RGB的Mask R-CNN 基線。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

DCT-48,可以提升大約0.8%的精度(37.3%到38.1% 以及 34.2%到35.0%)。DCT-24,即輸入數據大小減少一半的情況,讓bbox AP 和 Mask AP的性能分別提高了0.4。

應用到COCO數據集中,實際分割圖像是這樣的:

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

阿里達摩院實習生領銜新研究

這一成果,一共有6名研究人員參與,他們分別來自阿里達摩院和亞利桑那州立大學。

論文的第一作者名為Kai Xu,文章的主要工作是他在阿里達摩院計算技術實驗室作為研究實習生時完成的,他正在亞利桑那州立大學的讀博。

2011年,他本科畢業於山東大學電機及電子工程專業,2014年在電子科技大學獲得碩士學位,2015年,前往亞利桑那州立大學攻讀博士學位。

他的指導教授名為Fengbo Ren,2008年本科畢業於浙江大學,之後在加州大學洛杉磯分校獲得了碩士和博士學位。2015年1月開始在亞利桑那州立大學任教,也是論文作者之一。

Kai Xu的研究,集中在學習圖像和視頻的表徵方面,致力於處理圖像/視頻壓縮,重建和理解任務。從2016年以來,他已經在各個學術會議,比如ECCV、CVPR等發表了11篇論文,獲得了7項專利。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

在2019年6月進入達摩院實習之前,他還曾在三星美國研究機構實習過。在達摩院,他的研究方向是發掘計算機視覺領域的高效算法。

除了Kai Xu和Fengbo Ren,其他4名研究人員Minghai Qin, Fei Sun, Yuyao Wang和Yen-Kuang Chen 均來自阿里達摩院計算技術實驗室,其中Yen-Kuang Chen是IEEE Fellow。

這個馬雲寄予厚望的研究機構,正逐步爆發出越來越大的能量,並在吸引更多的人才加入。Kai Xu和他們提出的“頻域學習”,就是最新的代表之一。

接下來,他們的研究目標是對視頻壓縮系統做同樣的嘗試。他們認為,視頻壓縮標準中包含了幀間運動預測/補償和幀內預測,對應的頻域信息會有比較大的差別。

瞄準何愷明的實習生們

越來越多的“實習生”,在人工智能的前沿研究中現出身影,也將成為人工智能領域發展的驅動型力量。

阿里達摩院實習生新方法:只用一半輸入數據,提升Mask R-CNN精度

比如字節跳動的實習生王鑫龍(阿德萊德大學在讀博士生),提出了實例分割新方法SOLO,引入“實例類別”的概念,把實例分割問題轉化為分類問題,在一些指標上,性能還要超過何愷明提出的Mask R-CNN。

還有地平線的一名實習生黃釗金(華中科技大學碩士生),也曾提出過性能優於何愷明提出的Mask R-CNN的方案,並被CVPR 2019收錄。

也許你已經發現了其中的規律,他們的目標都是何愷明的Mask R-CNN,都提出了相應的優化與改進方案。

一方面,Mask R-CNN在圖像分割領域的確是高山級別的存在,但另一方面,誰說沒有致敬的意思呢?

說不定,過幾年,這些實習生中就會出現另一個何愷明呢~

傳送門

論文地址:https://arxiv.org/pdf/2002.12416.pdf

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: