12.20 何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

魚羊 乾明 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

又是何愷明超越何愷明。

其團隊最新論文一出,圖像分割又往前一大步:

消耗的資源變得更少,算力僅需Mask R-CNN的2.6%。

不僅能實現準確的分割,甚至連張開的五指都能精準摳出:

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

秀長腿的長頸鹿,分割後腿也能保持修長的模樣了:

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

△右為新方法

如此效果,已然超越了默認mask head的Mask R-CNN。

這是一種名為PointRend的新方法,“實現了前所未有的輸出分辨率”。

也可以在現有模型的基礎上構建,靈活應用於實例分割、語義分割任務。

其中訣竅在於:將圖像分割當做一個渲染問題

如此研究,同樣也引起了業內人士的圍觀。

有人盛讚稱,這是一項“偉大的工作”,也有人驚歎於研究思路:“從經典方法中獲取知識,牛。”

PointRend:將圖像分割視作渲染問題

渲染是將3D模型顯示為2D平面上的規則像素網格。

儘管輸出表現形式是規則網格,但其底層物理實體是連續的,並且其物理佔用率等屬性,可以通過物理和幾何推理(如射線追蹤),在圖像平面上的任何實值點進行查詢。

圖像分割,同樣可以視作底層連續實體的佔用圖,然後從中輸出預測標籤的矩形網格。

實體被編碼在網絡特徵圖中,可以通過插值在任意點進行訪問。

PointRend就是基於這種類比提出的,可以應用於實例分割和語義分割。


何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

△PointRend原理

以實例分割舉例,首先,使用輕量級的分割頭,對每個檢測到的對象(紅框)進行粗略的mask預測。

接下來,選擇一組點(紅色點),用小規模的多層感知器(MLP)為每個點進行獨立預測。

對這樣的細分算法進行迭代,以從粗到細的方式計算mask。

具體而言,PointRend分為三個主要組成部分。

用於推理和訓練的點選擇(Point Selection)

PointRend的核心思想是,在圖像平面中自適應地選擇預測分割標籤的點。

類似於光線追蹤中的抗鋸齒問題,這些點應該更密集地分佈於高頻區域(例如對象邊界)附近。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

推理部分,如上文所說,是一個以從粗到細的方式迭代“渲染”輸出mask的過程。在每次迭代中,PointRend使用雙線性插值,對其先前預測的輸出結果進行上採樣。

然後再次密度較高的網格上選擇N個最不確定的點(如上圖黑點),舉個例子,對於二進制mask而言,就是概率最接近0.5的那些點。

計算每一個點的逐點(point-wise)特徵表示, 預測它們的標籤,以恢復精細網格上的細節。

直到輸出結果達到預設的分辨率,迭代結束。

訓練部分,還需要選擇部分點,在其上構建逐點特徵,用來訓練點頭(Point Head)。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

這裡依然採用推理部分介紹的細分策略,只是引入了順序步驟。並且,在訓練中不進行迭代,而是使用基於隨機抽樣的非迭代策略。

為了提高性能,每個區域僅對少量點進行採樣,並採取輕度偏差的採樣策略,提高系統在訓練期間的效率。

逐點 (point-wise) 表示

PointRend通過組合低層特徵 (fine-grained features) 和高層特徵 (coarse prediction),在選定的點上構造逐點特徵。

在細粒度特徵(fine-grained features)方面,為了讓PointRend呈現出精細的分割細節,研究人員為CNN特徵圖中的每個採樣點提取了特徵向量。

不過,細粒度特徵雖然可以解析細節,但也存在兩方面的不足:

  • 1、不包含特定區域信息,對於實例分割任務,就可能在同一點上預測出不同的標籤。
  • 2、用於細粒度特徵的特徵映射,可能僅包含相對較低級別的信息。

這就需要粗略分割預測 (coarse prediction) 來進行補充,提供更多全局背景。

這樣的粗略預測類似於現有架構的輸出。以實例分割為例,coarse prediction可以是Mask R-CNN中 7×7 輕量級mask head的輸出。

點頭 (Point Head)

對於每個選定點的逐點特徵表示,PointRend使用簡單的多層感知器進行逐點分割預測。

多層感知器在所有點(所有區域)上共享權重。

並且,由於多層感知器會針對每個點預測分割標籤,可以通過特定任務的分割損失進行訓練。

更少的消耗,更好的結果

何愷明等人在研究中給出了結果證明,無論是在定性和定量維度上,都取得了顯著的效果。

與此同時,這一思路也進一步降低了消耗的資源,在當前人工智能算法模型在端側部署的大趨勢下,意義更大。

此外,這一方法不僅僅能夠應用在實例分割中,在語義分割中也取得了顯著的效果。

首先,他們將PointRend與Mask R-CNN默認的4×conv mask head進行了對比,使用的數據集是COCO和Cityscapes。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

結果顯示,在相同的分辨率上,PointRend的預測效果要明顯強過默認的4×conv mask head。

從定性效果上來看,在Mask R-CNN使用PointRend(右圖)在預測Mask時更加精細。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

此外,輸出圖像的分辨率更高的情況下(細分推理),PointRend也更強大。一方面體現在所需的資源上。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

在輸出224x224分辨率圖像下,PointRend只需0.9B FLOPs,而4×conv需要34B,相比之下優化了30多倍。

另一方面體現在效果上,從下圖來看,分辨率更高的情況下,AP出現了飽和的情況。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

但直觀效果隨著分辨率提高變得更好,使用PointRend還能夠抗鋸齒。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

在語義分割方面,他們的研究結果表明,使用PointRend能夠進一步提升DeeplabV3和 SemanticFPN的效果。在實驗對比中,採用的是Cityscapes語義分割集。

首先是在DeeplabV3上的效果,基於PointRend的DeeplabV3的語義分割效果明顯更好。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

在推理過程中對res4階段進行擴展,可以產生更大、更準確的預測,但是需要更高的計算和內存開銷,而且結果仍然不如使用PointRend。直觀來看,PointRend也可以恢復更小的對象和細節。


何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

此外,通過自適應採樣點, PointRend只預測32k點,就可以達到1024×2048分辨率(即2M點)。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

在SemanticFPN上,在8×和4×輸出步長變體上,用了PointRend之後,效果也有明顯提升。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

又雙叒叕來自何愷明團隊

PointRend是何愷明團隊的最新研究成果,一共有四名作者,全部來自Facebook AI研究院。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

第一作者是Alexander Kirillov,畢業於海德堡大學,是FAIR致力於計算機視覺研究的科學家。

除了何愷明之外,作者中還有一位華人學者,名為吳育昕。他在2015年從清華大學計算機系畢業,之後在CMU獲得碩士學位,現在是Facebook研究工程師。

最後一位作者是Ross Girshick,博士畢業於芝加哥大學,也是FAIR致力於計算機視覺研究的科學家。

對於何愷明來說,PointRend是他在圖像分割領域的最新探索。

這篇論文中被改進的Mask R-CNN,就是出自他手,自2017年3月提出以來,到現在已經成為圖像分割的主流算法。這一成果也在2017年的ICCV上獲得了最佳論文獎。

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

在此之前,他在計算機視覺領域的研究成果也獲得了CVPR 2009和CVPR2016的最佳論文獎,可以說是傳奇般的存在。

PointRend等後續研究成果出現,也進一步說明了他並沒有停下來,而是在不斷尋找新的方法來提升模型的效果。

大神之所以是大神,這也是其中的原因之一吧。

你說呢?

何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: