論文筆記|3d圖像識別基礎論文:PointNet: 3D 分類和分割

原文鏈接:https://arxiv.org/abs/1612.00593

主要思路:輸入獨立的點雲數據,進行變換不變性處理(T-net)後,通過pointNet網絡訓練後,最後通過最大池化和softMax分類器,輸出評分結果。

摘要:相較於之前其他處理點雲數據的論文,將數據轉換為三維體素網格或者圖象集合,pointNet最大的不同是,對於點雲數據,會直接進行處理,而非將點雲數據進行格式化處理,從而避免了將點雲數據格式化後,產生的unnecessarily voluminous以及像素點失真的問題。

點雲的問題:

無序

與圖像中的像素陣列或體積網格中的體素陣列不同,點雲是一組沒有特定順序的點。 換句話說,處理N個3D點集合就會有n!種排列方式。

處理方法:

提出了三種方法:

1)將輸入排序為規範的順序;(對於擾動不穩定)

2)將輸入作為一個序列來訓練一個RNN,但是用各種排列來增加訓練數據; (順序無法被完全忽視)

3)使用簡單的對稱函數來彙總每個點的信息。首先採取mlp提取特徵(只有*和+的對稱函數)並且採用最大池化函數,導致輸出結果不受集合中點的排列順序影響。

深度網絡模擬通用對稱函數

論文筆記|3d圖像識別基礎論文:PointNet: 3D 分類和分割

輸入總共n個點的無序雲圖點集({x1,x2 … , xn}), 通用函數f 輸出該雲圖分類(汽車,書桌,飛機)。其中h函數用MLP網絡模擬:g用最大池化模擬。

點之間的相互作用。

點來自具有距離度量的空間。這意味著點不是孤立的,相鄰點形成一個有意義的子集。 因此,該模型需要能夠從附近的點捕獲局部結構,以及局部結構之間的組合相互作用。分割和語義分析需要考慮到點之間的相互作用。

處理方法:在分割網絡中,將局部特徵和全局特徵連接,並進行進一步的特徵提取,最終提取的結果與局部和全局特徵相關。

變換下的不變性

作為一個幾何對象,點集的學習表示對某些變換應該是不變的。 例如,旋轉點和平移點不應該修改全局點雲類別或點的分割。對於一個3D圖像,當我們進行例如旋轉、上移等操作時,不論是目標分類還是部分分割,都應保證其結果不變。

處理方法:論文作者提出了在進行特徵提取之前,先對點雲數據進行對齊的方式來保證不變性。對齊操作是通過訓練一個小型的網絡(T-net,類似於大型網絡,由點獨立特徵提取,最大池化和全連接層的基本模塊組成)來得到轉換矩陣,並將之和輸入點雲數據相乘來實現.相當於在數據預處理階段直接進行處理,保證其後的結果不變性。

點雲具有稀疏性(信息點提取)

處理方法:網絡高效地學習一組優化功能/標準,選擇點雲的信息點,並對其選擇原因進行編碼。

方法:

網絡分析:

論文筆記|3d圖像識別基礎論文:PointNet: 3D 分類和分割

  1. 三個初始緯度。
  2. T-net對齊處理
  3. 最大池化合並特徵,解決無序性
  4. 連接全局和局部特徵
  5. softmax分類器

兩個定理:

論文筆記|3d圖像識別基礎論文:PointNet: 3D 分類和分割

和神經網絡一樣,該網絡也可以擬合任意的連續集合函數。

論文筆記|3d圖像識別基礎論文:PointNet: 3D 分類和分割

對噪聲和缺失的魯棒性。

論文筆記|3d圖像識別基礎論文:PointNet: 3D 分類和分割

創新點:

  1. 對稱函數處理無序性處理。
  2. t-net微型網絡進行變換不變性處理。
  3. 全局變量和局部變量合併處理相關性。

應用:神經網絡對於無序的信息點的處理。

問題:

1.正則項:相較於前一個3 * 3變換矩陣,後面的變換矩陣為64 * 64 = 4096,由於變換矩陣過大,通過添加正則項,使變換矩陣近似於正交矩陣,此時所需要的參數將大大減少。

2.T-net網絡實現的細節:(如何具體實現對齊和變換不變性)。

3.兩個定理的證明過程。


分享到:


相關文章: