論文筆記|CVPR 2018|低分辨率人臉識別 GAN

論文筆記 | CVPR 2018 | 低分辨率人臉識別:Finding Tiny Faces in the Wild with Generative Adversarial Network

下載地址:https://ivul.kaust.edu.sa/Pages/pub-tiny-faces.aspx

該文章主要解決的問題是:無約束條件下的低分辨率的人臉檢測。

主要面臨的挑戰是:

(1) 低分辨率的人臉缺乏詳細的細節信息,以及圖像模糊等問題。

(2) 目前CNN模型卷積核步長太長,對於低分辨率人臉識別容易丟失大部分信息。

摘要

人臉檢測技術已經發展了幾十年,但是對於無約束以及低分辨率條件下的人臉檢測仍是一個懸而未決的挑戰。造成該挑戰的主要原因是:低分辨率下的人臉往往缺乏詳細的信息,並且具有一定的模糊性。基於此問題,本文提出一種利用生成對抗網絡(generate adversarial network, GAN)直接從模糊的小人臉中生成清晰的高分辨率人臉的算法。同時作者還引入新的訓練損失函數來指導生成器網絡恢復細節信息,促進鑑別器網絡同時辨別real/fake face 和 face/non-face。最後在WIDER FACE數據集上進行訓練和測試,實驗結果表明本文方法在小人臉檢測方面具有一定的高效性。

1 相關研究

1.1 基於手工特徵的檢測算法

該類方法只訓練單個尺度模型,限制了檢測器的性能。另外該類方法使用特徵金字塔的每一層,因此大大增加了計算成本,尤其是對於複復雜的特徵。

1.2 基於CNN的檢測算法

該類算法使用8, 16 或32的步長進行下采樣,並用其卷積特徵來表示人臉,然而這種特徵圖往往丟失大部分空間信息,導致圖像過於粗糙,無法描述小人臉。如16×16的人臉圖像,採用步長為2,4次下采樣後特徵圖僅為1×1,因此無法清晰表示人臉特徵。

2 本文算法

2.1 本文算法的創新點

(1) 提出一種新的人臉檢測的統一端到端卷積神經網絡結構,採用超分辨率和細化網絡生成真實清晰的高分辨率圖像,並引入判別網絡對人臉與非人臉進行分類。

(2) 引入新的判別器loss。

2.2 本文算法的核心思想

本文方法主要是針對實際應用而提出的人臉檢測算法,由於在無約束的環境下,人臉可能會以模糊、側臉、低分辨率等方式呈現。針對該問題,作者通過採用生成對抗網絡(GAN)直接從模糊的低分辨率人臉中生成清晰的高分辨率人臉,然後進行人臉檢測。對於生成的超分辨率圖像,可能是非人臉,因此作者在鑑別器網絡中加入分類分支來判斷生成圖像是人臉還是非人臉,從而增強人臉檢測算法的魯棒性。下圖為本文算法的網絡結構圖。


論文筆記|CVPR 2018|低分辨率人臉識別 GAN


Figure 1. The pipeline of the proposed tiny face detector system.

對於本文的GAN網絡,生成器包含兩個子網絡:超分辨率網絡和細化網絡;判別器中加入分支網絡,用於區分人臉、非人臉和生成圖片、真實圖片。超分辨率網絡(SRN)對小人臉進行小尺度上採樣,在較大尺度上減小偽影,提高上採樣圖像質量。細化網絡(network, RN)可以恢復上採樣圖像中缺失的一些細節,生成清晰的高分辨率圖像進行分類。鑑別子網絡利用一種新的損失函數,使鑑別器網絡同時區分real/fake face 和 face/non-face(即區分是生成器合成的圖像還是ground truth圖像,以及是人臉還是非人臉)。該算法的損失函數主要包括三部分,分別為:

Pixel-wise loss:MSE loss,通過像素級的MSE損失來強制生成器的輸出接近超分辨率的ground truth值,具體公式如圖2所示。

Adversarial loss:促進生成器生成更逼真的圖片,具體公式如圖2所示。

Classification loss:其作用是為了使生成網絡重構的圖像更易於分類,同時抑制非人臉轉變為人臉的過程,(如,將模糊桌子轉變成人臉的過程),具體公式如圖2所示 。


論文筆記|CVPR 2018|低分辨率人臉識別 GAN


圖2 本文算法所用的損失函數

圖2中Classification loss存在一個問題,文章介紹yn=1表示人臉,而yn=0表示非人臉。那麼,當yi=0時,log(yi-Dθ(IiHR))該如何取值,文中未對此進行說明(或許本人理解錯誤,此文僅供參考)。

最終將上圖中三個損失函數相結合,得到最終的objective function,其公式如圖3所示:


論文筆記|CVPR 2018|低分辨率人臉識別 GAN


圖3 objective function

圖4中給出了本文GAN網絡的結構設計表。其中Generator網絡使用deep CNN, batch-normalization, ReLU,而Discriminator使用VGG19網絡。

論文筆記|CVPR 2018|低分辨率人臉識別 GAN

Figure 4. Architecture of the generator and discriminator network. “conv” represents a convolutional layer, “x8” denotes a residual block which has 8 convolutional layers, “de-conv” means a fractionally-stride convolutional layer, “2x” denotes up-sampling by a factor of 2, and “fc” indicates a fully connected layer.

2.3 實驗結果

本文算法在WIDER FACE和FDDB兩個公開的人臉檢測數據集上進行訓練以及測試。Trade-off weights α = 0.001 and β = 0.01。另外,圖1中的MB-FCN detector是17年提出的一種人臉檢測算法,知乎上有關於其的詳細介紹,本文中僅使用它在數據集中隨機截取人臉圖片和非人臉圖片,用於訓練網絡的輸入。其中,訓練使用的low-resolution images通過下采樣生成,high-resolution images使用雙三次插值生成。

實驗結果如下圖所示。

論文筆記|CVPR 2018|低分辨率人臉識別 GAN

Figure 5. Qualitative detection results of our proposed method. Green bounding boxes are ground truth annotations and red bounding boxes are the results from our method. Best seen on the computer, in color and zoomed in.

文中還對各個損失函數的性能進行了驗證,即Ablation Studies, 其性能對比結果如下圖。

論文筆記|CVPR 2018|低分辨率人臉識別 GAN


Figure 6. Performance of the baseline model trained with and without GAN, refinement network, adversarial loss and classification loss on the WIDER FACE invalidation set.

本文方法與state-of-the-art方法對比的實驗結果如下圖。

論文筆記|CVPR 2018|低分辨率人臉識別 GAN

Figure 7. On the WIDER FACE validation set, we compare our method with several state-of-the-art methods: MSCNN[31], MTTCNN[33], CMS-RCNN[37], HR[10], SSH[19], SFD[35]. The average precision (AP) is reported in the legend. Best viewed in color.

2.4 本文方法性能提升的原因

(1) 對於低分辨率的人臉,本文方法可以將其變為高分辨率的圖像,並對其進行細化,這樣使生成的圖像含有詳細的細節信息,同時也促進了人臉和非人臉的判別。

(2) 本文方法在鑑別器網絡中加入了分類分支,這可以抑制低分辨率的非人臉圖像向人臉圖像轉化。GAN網絡本來就是用來生成我們所期望輸出的圖像,這樣鑑別器同樣可以引導非人臉圖像向人臉圖像轉化(如GAN網格可以將低分辨率模糊的桌子引導生成至清晰人臉),所以為了阻止該過程的發生,作者引入了Classification loss,當生成初步可判斷的非人臉圖像時,網絡就可以直接阻止生成網絡將其合成至人臉圖像。

3 總結

總的來說,作者將目前火熱的GAN網絡融入人臉檢測領域,取得了不錯的檢測效果。對於無約束的低分辨率人臉檢測,該方法達到了目前較好的水平。

上述內容僅個人的點滴粗見,如有不當之處,請同行批評指正。歡迎關注公眾號~


分享到:


相關文章: