DeepSnake—浙大提出實例分割新方法,準確高速獲取物體邊緣輪廓

DeepSnake—浙大提出實例分割新方法,準確高速獲取物體邊緣輪廓

From: ZJU編譯: T.R.

實例分割是計算機視覺領域重要任務,廣泛應用於自動駕駛、視頻分析、圖像操作和機器人抓取等領域。但目前大多數方法都是基於逐像素的分割計算,這種類方法不僅會受到bbox不精確的影響,同時還會在後處理過程中耗費龐大的計算量。而基於輪廓的實例分割方法不會受到bbox的限制,並且含有更少的參數量,但已有基於輪廓方法無法完整地探索輪廓的空間拓撲結構,並且大多基於人工優化函數來進行計算。

為了充分探索基於輪廓的實例分割方法,來自浙江大學的研究人員對snake方法進行了有效的改進,通過引入圓卷積結構處理輸入輪廓頂點,並基於學習到的特徵得到每個頂點需要調整的偏移量以儘可能地準確包圍實例,而後通過迭代得到更為精確的輪廓結果。實驗表明這種方法可以更加迅速準確地進行實例分割。

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

在給定初始輪廓的前提下算法抽取每個頂點的圖像特徵,由於輪廓可視為一個圓形圖結構,可以使用圓卷積來獲取輪廓特徵。上圖中的藍色、黃色和綠色節點分別表示了輸入特徵、卷積核以及輸出特徵。最終迴歸出每個頂點處的偏移量從而調整輪廓逼近目標的邊界。

DeepSnake 的基本思想

DeepSnake的主要功能是通過深度學習給出輸入初始輪廓頂點需要調整的偏移量,以得到更為準確的實例分割結果。在對基於輪廓的實例分割方法研究過程中,發現物體的輪廓其實是一個圓形的圖結構,其中每個頂點都有兩條邊連接相鄰的頂點,這意味著可以利用一維卷積來對頂點特徵進行學習。由於閉合的輪廓可以視為週期性結構,於是研究人員引入了圓卷積來處理。與通常的圖卷積方法不同,圓卷積核不僅可以編碼每個頂點的特徵還能編碼臨近頂點間的關係,具有更強的表達能力。

傳統的snake算法將輪廓的頂點座標視為一系列變量,並優化這些變量的能量函數來迭代頂點座標。通過有效的能量函數設計,理論上可以將輪廓優化到目標邊界上。但由於基於手工設計的能量函數一般都是非凸的,輪廓的優化過程易於陷入居於最優解。與之不同的是,DeepSnake則直接從數據中學習出目標的邊界輪廓。對於包含N個頂點的輪廓{xi | i=1,…,N},首先為每個頂點建立特徵矢量。這一特徵矢量為fi=[F(xi); x’i ],其中前半部為基於CNN從輸入圖像上學習到的特徵圖,而後一個則是通過變換後得到的旋轉不變座標。

在得到每個點的特徵矢量後,DeepSnake便利用圓卷積進行特徵學習,下圖顯示了圓卷積的基本過程。

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

藍色頂點通過黃色卷積核的作用得到了綠色的特徵輸出,輸出特徵與輸入頂點特徵的長度相同。在實驗中圓卷積的核大小被設置為9.

輪廓上的特徵可以被視為一維離散信號並可利用標準卷積進行處理。為了避免破壞輪廓的拓撲結構,研究人員將輪廓上的特徵視為週期性信號:

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

並提出了下面的圓卷積方法來學習特徵,其中的k為圓核函數:

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

與常見的卷積算法類似,這種圓卷積方法可以方便地提取頂點特徵並集成到相應的網絡結構中。在圓卷積進行特徵學習後,DeepSnake利用1x1卷積層對每個頂點的輸出特徵進行處理,為每個頂點預測出與目標輪廓間的偏移量,這一偏移量將用於調整輪廓形狀不斷逼近目標。

這種算法比一般的圖卷積方法可以更好的探索輪廓的圓形結構特徵,更重要的是他具有目標級別的結構預測能力,特別是對於那些初始化時遠離目標位於背景上的頂點來說,這種方法可以更為有效的預測出需要調整的偏移量。而標準的CNN則由於初始化頂點歸屬物體的不確定性,難以預測出較為準確的偏移量。

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

上圖顯示了DeepSnake的基本網絡架構,其中包含了三個重要的部分。第一部分為主幹部分,包含了8個圓卷積層和相應的殘差連接;第二部分為融合部分,融合了多尺度的輪廓信息,隨後與主幹信息疊加送入到最後的預測部分;第三部分預測模塊由1x1卷積構成,用於預測逐頂點需要調整的偏移量。

完整的實例分割流程

在擁有了可以調整頂點位置,預測偏移量的DeepSnake算法後就可以構建出完整的實例分割框架了。下圖展示了從輸入圖像、輪廓初始化到最終預測偏移量和計算輪廓結果的過程。

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

首先基於目標檢測(CenterNet)得到的bbox,將每個邊的中點提取出來構建出一個方塊形的輪廓。而後第一次利用DeepSnake來計算這四個頂點需要的偏移量以獲取圖像中目標的極值點(最左,最上,最下,最右邊點);在實際計算中,研究人員將四個中點構成的方塊型輪廓上採樣為40個點,以便涵蓋更為豐富的上下文信息。

在獲得了4極值點後也就得到了新的bbox,隨後在每個點依照bbox的方向向兩邊生成1/4邊長的線段,如果在生成過程中遇到bbox的頂點就停止。依次連接這四個線段的八個端點就可以獲得一個八邊形輪廓。

此時通過在八邊形輪廓上進行採樣就可以得到包含N個點的目標初始輪廓(N=128), DeepSnake將這N個點構成的輪廓作為輸入預測出需要調整的偏移量。然而一次性預測出準確的偏移量還存在一定的困難,研究人員將迭代地進行三次預測以不斷提高預測精度。通過這種方式可以不斷地提高目標邊緣的預測精度並解決目標檢測器帶來的初始定位誤差。

實驗結果

研究人員最終在Cityscape、Kins和Sdb上進行了實驗,並對初始網絡結果、初始化輪廓方法和圓卷積進行了消融性分析。下表顯示了三個部分對於最終結果的貢獻情況。網絡架構中的全局融合模塊帶來了1.4AP的提升;其中通過極值點的方法初始化輪廓不僅解決了目標檢測誤差,同時也有效處理了過於靠近的物體,帶來了1.3的AP提升;

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

而後圓卷積的引入相比於圖卷積提升了0.8AP,並且在迭代中兩個迭代就超過了圖卷積三個迭代0.6AP,顯示了圓卷積強大的形變適應能力。下圖中也顯示了圓卷積對於物體邊界的變形適應能力。

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

與各種先進的算法相比,基於DeepSnake的分割算法顯示出了良好的性能優勢:

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

在複雜的Cityscape、Kins和Sdb數據集上都得到了十分優秀的實例分割結果:

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓
DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

如果想要了解這一算法的細節實現和圓卷積的細節,請參看論文:

https://arxiv.org/pdf/2001.01629v1.pdf

不久之後還有代碼可以配合學習:

https://github.com/zju3dv/snake/

ref:

https://github.com/zju3dv

http://www.cad.zju.edu.cn/zhongwen.html

http://www.zjucvg.net/publication.html

http://www.cad.zju.edu.cn/home/xzhou/

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓

關於我門

將門是一家以專注於

發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

DeepSnake—浙大提出实例分割新方法,准确高速获取物体边缘轮廓


分享到:


相關文章: