論文閱讀|CVPR 2015|U-Net網絡講解

論文鏈接:https://arxiv.org/abs/1505.04597

代碼鏈接:https://github.com/yihui-he/u-net

前面的論文忘記介紹大佬的名字了,在這裡先抱個歉。。。那麼接下來有請提出U-Net的大佬們一一列席:Olaf Ronneberger, Philipp Fischer, and Thomas Brox

這裡依次是三位大佬的主頁

https://lmb.informatik.uni-freiburg.de/people/ronneber/

https://lmb.informatik.uni-freiburg.de/people/fischer/

https://lmb.informatik.uni-freiburg.de/people/brox/

其中,有他們的論文及代碼實現,感興趣的可以進行學習實現一下。

下面進入正文,首先作者開頭就提到了,通過使用數據增強可以更加高效的使用標記的樣本。結構包括一個壓縮路徑 用於捕捉上下文信息,還有一個對稱的展開路徑 用於精確的定位。這種網絡的特點就是可以對很少的幾張圖片進行end-to-end訓練並且表現的較好。在醫學圖像上需要對每個像素進行分類,有位大佬提出了用滑動窗口的方法,通過一個patch(該像素周圍)的類別對像素進行分類,要求是一是網絡可以進行定位,二是patch的數量遠大於訓練的圖片,結果還是喜人的。但接下來,作者就開始進行批鬥了,首先作者認為這個做法很慢,網絡必須經過每個patch,這就會因為很多重疊造成很多冗餘。再就是,在定位的準確性和上下文的使用二者要進行權衡,更大的pathc需要更多的最大池化層來減少定位精度,而小的patch包含的上下文信息就較少。

然而作者想到了機智的方法可以解決上述問題,作者提出的 結構是建立在全卷積網絡。作者對其進行修改和擴展,使其可以在很少的訓練圖像下 進行工作,同時產生更精確的分割。

網絡結構如下:


論文閱讀|CVPR 2015|U-Net網絡講解


全卷積網絡的主要思路是通過連續層來補充通常 的壓縮網絡。這裡池化操作被上採樣取代。這些層增加了輸出的分辨率,因此,為了定位,從壓縮路徑中獲得的高分辨率特徵與上採樣的輸出結合。一系列卷積層會根據這些信息組合學習到更精確的輸出。

作者在結構的上採樣部分進行了修改,有大量特徵通道,允許網絡將上下文信息傳播到更高分辨率的層。結構上,壓縮路徑與展開路徑或多或少的有些對稱,形成一個U形。這個U網比較奇葩,沒有全連接層,而且僅使用每個卷積層的有效部分通過重疊+平鋪,可以實現任意大小圖片的無縫分割。為了預測圖像邊界區域中的像素,可以通過輸入圖像的鏡像操作來推斷遺失的上下文。前面說的這個策略很適合於大的圖片。作者將訓練圖片進行彈性變換(個人感覺是各種圖像處理的套路)來實現數據增強。

下面大體說一說網絡的結構,擺在你面前的有兩條路,一條為壓縮路徑,另一條為擴展路徑,壓縮路徑的結構和卷積結構相同,包括兩次3*3卷積,每個卷積後接一個RELU,和一個2*2的最大池化層(stride=2)用於下采樣。在每個下采樣的過程中,將特徵通道數加倍,擴張路徑中的每一步都包括上採樣,然後進行2*2的反捲積,其特徵通道數減半,與來自壓縮路徑中相對應的裁剪feature map級聯,同時進行兩個3*3的卷積,並捎帶個RELU。由於卷積邊界上像素有丟失,因此,進行裁剪是必要的。在最後一層,用大小為1*1的卷積將64維的特徵向量映射到目標的類別數目上。次網絡總共有23個卷積層。

Unet網絡介紹到這裡,這裡提一下,Unet網絡十分適合於生物醫學上的處理,同時由於醫學影像較少,因此作者進行了數據增強,使Unet能夠發揮的更加出色。


分享到:


相關文章: