賽題社會價值
通過計算機自動識別大面積衛星圖中的物體,有助於預估農產品產量,城市面積等工作。
賽題所屬類型
圖像分割與分類
賽題特點
- 類間差異小;
- 存在標註噪聲;
- 物體尺度差異大;
- 有效物體佔比低;
- 圖片尺寸達到30億左右的像素,無法直接訓練。
賽題工作
模型選擇
本次分割的圖像中,全局信息很重要,某一個類別的確定會受到它周邊像素與類別的影響。本次比賽最佳模型框架deeplab v3+。
數據處理
- 為了應對圖片過大的現象,本次比賽採取了滑動裁剪的方法,每次選取圖片大小1024x1024,滑動步長設置為512,剔除無效區域佔比過高的樣本。由於滑動採樣操作會對邊緣的預測產生影響,所以,預測結果只保留中間區域(512x512)。
- 一些常規的數據增強方法。
訓練處理
- 本次分類使用的是多分類交叉熵損失函數,併為不同類別添加不同的權重。
- 標籤平滑。採取軟標籤訓練,區別於0和1的這樣的硬標籤,可以為難易程度不同的樣本給予不同程度的標籤值。
- 使用半監督的方式,為沒有標籤的圖片生成軟標籤,增加樣本。
- 因為數據集比較小,即使使用了各種數據增強技術,還是會有過擬合的風險,可以選取多個snapshot使用參數均值的方法對模型參數進行融合可以提高模型的泛化能力。但是傳統的方法是對一個模型進行多次訓練來取得多個snapshot,這會需要很多的計算時間。相比之下,根據不同評價標準選擇融合的snapshot,也就是選擇最小驗證loss,最大mIoU,和訓練最後(通常是訓練loss最小)的三個模型參數進行融合。為了增加三個模型的差異性,可以採用Cyclic Cosine Annealing的方法。反覆進入多個局部最小值。
預測結果處理
- 由於預測生成的圖片會存在一些毛刺,小連通域等現象。所以,採取了一些圖像的膨脹與腐蝕的處理。
閱讀更多 量子AI 的文章