度學習與圖像識別 圖像檢測

1、深度學習的優勢

(1)從統計,計算的角度看,DL特別適合處理大數據

a、用較為複雜的模型降低模型偏差

b、用大數據提升統計估計的準確度

c、用可擴展的梯度下降算法求解大規模優化問題

這個大數據是除了數量上的大,還有更重要的是維度的大,很多算法本身是無法處理高緯度數據的,例如Kernel學習機相關的算法, 雖然理論上是先將數據向高維空間映射,然後在高維空間進行線性的求解,實際上在處理的時候還是回到原空間處理。傳統的BP算法針對高維的數據也是效果不佳。

CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。深度學習很重要的是對全局和局部特徵的綜合把握

(2)深度學習不是一個黑箱系統。它像概率模型一樣,提供一套豐富的、基於聯接主義的建模語言。利用這套語言系統,我們可以表達數據內在的豐富關係和結構。比如用卷積處理圖像中的二維空間結構,用遞歸神經網絡(Recurrent Neural Network)處理自然語言等數據中的時序結構

(3)深度學習幾乎是唯一的端到端的學習系統

它直接作用於原始數據,自動逐層進行特徵學習,整個過程直接優化目標函數。

2、深度學習在圖像識別中的發展趨勢

(1)模型層次不斷加深

2012Alex 獲得ImageNet 冠軍,其所用的AlexNet5個卷積層 3個pool層 和2個全連接層

2014年獲得ImageNet的GoogleNet,使用了59個卷積層,16個pool層和2個全連接層。

2016年微軟的ResNet深度殘差網絡,用了152層的架構

(2)模型結構日趨複雜

傳統的卷積神經網絡都是簡單的 conv-pool-FC

後來NIN 用mlpconv 代替傳統的 conv層(mlp 實際上是卷積加傳統的多層感知器 )。這樣做一方面降低過擬合程度提高模型的推廣能力,另一方面為大規模並行訓練提供非常有利的條件

(3)海量的標註數據和適當的數據擾動

DL需要大量的數據,現有的圖像數據不能滿足需求,結合圖像數據的特點,通過平移、水平翻轉、旋轉、縮放等數據擾動方式可以產生更多的有效數據,普遍提高識別模型的推廣能力。


3、如何應用深度學習

(1) 將ImageNet上訓練得到的模型作為起點,利用目標訓練集和反向傳播對其進行繼續訓練,將模型適應到特定的應用

(2) 如果目標訓練集不夠大,可以將底層的網絡參數固定,沿用ImageNet上的訓練集結果,只對上層進行更新。

(3) 直接採用ImageNet上訓練得到的模型,把最高的隱含層的輸出作為特徵表達,代替常用的手工設計的特徵。

4、卷積神經網絡

(1)什麼是卷積神經網絡

卷積神經網絡是一種為了處理二維輸入數據而特殊設計的多層人工神經網絡。網絡中的每層都由多個二維平面組成,而每個平面由多個獨立的神經元組成。相鄰兩層的神經元之間互相連接。

A、 卷積特徵提取(局部連接,權值共享)

從圖像中隨機選取一小塊局域作為訓練樣本,從該樣本中學習到一些特徵,然後將這些特徵作為濾波器,與原始整個圖像作卷積運算,從而得到原始圖像中任意位置上的不同特徵的激活值(見動圖)

度學習與圖像識別 圖像檢測

B、 池化

通過將卷積層提取的特徵輸入至分類器中進行訓練,可以實現輸出最終的分類結果。理論上可以直接輸出,然而這將需要非常大的計算開銷,特別是對於大尺寸高分辨率圖像

由於圖像具有一種“靜態性”的屬性,在圖像的一個局部區域得到的特徵極有可能在另一個局部區域同樣適用。因此,對圖像的一個局部區域中不同位置的特徵進行聚合統計操作,這種操作統稱為池化

(2)卷積神經網絡的發展

A、 1990年,LeCun等在研究手寫體數字識別問題時,首先提出來使用梯度反向傳播算法訓練的卷積神經網絡模型,並在MNIST手寫數字數據集上表現出了好的性能。

B、 2012年ImageNet比賽中 AlexKrizhevsky等提出的AlexNet首次將深度學習應用到大規模圖像分類,並獲得了冠軍。

度學習與圖像識別 圖像檢測

AlexNet用了5層卷積層和3層全連接層,最後用softmax進行分類。

改進點:

a、 採用dropout訓練策略,在訓練過程中將輸入層和中間層的一些神經元隨機置零。這模擬了噪聲對輸入數據的各種干擾使一些神經元對一些視覺模式產生漏檢的情況。使得訓練過程收斂過慢,但得到的網絡模型更加魯棒。

b、 採用ReLU(修正線性單元)作為激勵函數,降低了計算的複雜度

c、 通過對訓練樣本鏡像映射和加入隨機平移擾動,產生了更多的訓練樣本,減少了過擬合

C、 2013 ImageNet的獲勝隊伍Clarifai 提出了卷積神經網絡的可視化方法,運用反捲積網絡對AlexNet的每個卷積層進行可視化,以此來分析每一層所學習到的特徵從而加深了對於卷積神經網絡為什麼能在圖像分類上取得好的效果的理解,並據此改進了該模型。

D、 2014 ImageNet Google團隊

網絡有22 層,受到赫布學習規則的啟發,同時基於多尺度處理的方法對卷積神經網絡作出改進。該文基於Network in Network思想提出了Inception模塊。Inception 模塊的結構如圖所示,它的主要思想是想辦法找出圖像的最優局部稀疏結構,並將其近似地用稠密組件替代。這樣做一方面可以實現有效的降維,從而能夠在計算資源同等的情況下增加網絡的寬度與深度;另一方面也可以減少需要訓練的參數,從而減輕過擬合問題,提高模型的推廣能力。

度學習與圖像識別 圖像檢測

E、 2015年微軟亞洲研究院所提出的152層的深度殘差網絡以絕對的優勢獲得圖像檢測、圖像分類和圖像定位3個項目的冠軍

5、物體檢測

(1)物體分類與檢測的難點與挑戰

物體分類與檢測是視覺研究中的基本問題,也是一個非常具有挑戰性的問題.物體分類與檢測的難點與挑戰在本文中分為3個層次:實例層次、類別

層次和語義層次,如圖所示

度學習與圖像識別 圖像檢測

a) 實例層次

針對單個物體實例而言,通常由於圖像採集過程中光照條件、拍攝視角、距離的不同、物體自身的非剛體形變以及其他物體的部分遮擋,使得物體實例的表觀特徵產生很大的變化,給視覺識別算法帶來了極大的困難

b) 類別層次

困難與挑戰通常來自3個方面,

類內差大,也即屬於同一類的物體表觀特徵差別比較大,其原因有前面提到的各種實例層次的變化,但這裡更強調的是類內不同實例的差別,例如圖(a)所示

類間模糊性,即不同類的物體實例具有一定的相似性,如圖(b)背景的干擾在實際場景下,物體不可能出現在一個非常乾淨的背景下,往往相反,背景可能是非常複雜的、對我們感興趣的物體存在干擾的,這使得識別問題的難度大大增加

c) 語義層次.

困難和挑戰與圖像的視覺語義相關,這個層次的困難往往非常難處理,特別是對現在的計算機視覺理論水平而言,一個典型的問題稱為多重穩定性.如圖(C)左邊既可以看成是兩個面對面的人,也可以看成是一個燃燒的蠟燭;右邊則同時可以解釋為兔子或者小鴨.同樣的圖像,不同的解釋,這既與人的觀察視角、關注點等物理條件有關,也與人的性格、經歷等有關,而這恰恰是視覺識別系統難以處理的部分

度學習與圖像識別 圖像檢測

(2)物體檢測的發展(詳細算法介紹見後續)

較有影響力的工作包括:

A、 RCNN (2013)

B、 Fast RCNN

C、 Faster RCNN

D、 R-FCN

E、 YOLO

F、 SSD


分享到:


相關文章: