深度學習檢測造假圖像

論文題目:Hybrid LSTM and Encoder-Decoder Architecture for Detection of Image Forgeries

論文地址:https://ieeexplore.ieee.org/abstract/document/8626149

解讀

LSTMEnDec:cnn網絡與長短時記憶網絡相結合,雙流結構(與雙流faster類似),網絡結構如下。

深度學習檢測造假圖像

輸入圖像一流送到cnn網絡進行訓練(encoder),結構是卷積、殘差連接、最大池化提取空間特徵圖。另外一流把輸入圖像切分成64塊,對塊進行重採樣,提取重採樣特徵送到LSTM網絡得到8*8*Nf的特徵(通道Nf=64)。之後兩流特徵融合再上採樣(decoder),softmax輸出預測結果。


創新點

1.將圖像作為輸入,利用圖像的全局上下文再來進行切片操作。

2.雙流分支結構,一流進行patch採樣得到頻域特徵,另一流使用卷積進行編碼得到空間特徵,然後融合再解碼(上採樣)輸出。

3.提出新的篡改數據集用於訓練DRESDEN(40k)、NIST'16(25k)數據集未公佈。


LSTM流

深度學習檢測造假圖像

切片的64塊(32*32*3)小圖像先進入resampling feature進行重採樣,目的是找到可能的篡改區域。這裡就使用到了Radon變換,首先用laplacian(拉普拉斯)濾波器得到patch的線性預測誤差幅值,然後Radon用不同的投影角度把誤差累加起來,這樣就得到可能篡改區域的信息,最後輸出是8*8*Nh(Nh=128)。


下圖解釋為什麼使用Radon變換

深度學習檢測造假圖像

主要看e圖,1、3為非篡改區域,2、4篡改區域,可以看到曲線峰值右側2、4(篡改)曲線更平緩。這點可以作為可能的有效信息來找到篡改區域。

接下來特徵將進入LSTM網絡,但是在這之前作者又引入了hilbert curve,因為LSTM性能很大程度取決於patch排序。重採樣得到的特徵是多維的,空間信息多而冗餘,使用希爾伯特曲線可以把多維空間轉為一維並且能關聯相鄰塊。

深度學習檢測造假圖像

先分成四個大正方形,在每個大正方形裡分4個小正方形,小正方形裡再分4個單位正方形。線段通過調節曲線函數的參數能在小正方形裡走到4個單位正方形其他地方,虛線代表與其他小正方形(塊)的聯繫。

現在將正式把重採樣特徵喂到LSTM中,這裡使用兩個 stacked layers,64個時間步長,在每個時間步長的最後一層獲得64尺寸特徵向量,最後輸出8*8*Nf特徵。


Encoder流

深度學習檢測造假圖像

圖像(256*256*3)喂到cnn中,依次卷積(卷積核3*3*d,d=32,64,128,256遞增)、最大池化(步長為2,特徵圖縮小2倍)、殘差連接,進行4次提取得空間特徵圖(此部分網絡結構不難)。


兩流融合上採樣

深度學習檢測造假圖像

特徵融合這裡論文並沒有怎麼提(猜想應該是兩個8*8的拼接)。Decoder部分也比較簡單,上採樣、卷積、標準化做了兩次,最後接softmax(本質還是二分類,是或不是篡改)預測結果。

網絡的訓練實驗部分,細節處論文說的很少,作者把重點放在介紹他們自己創造的數據集(然而提出的篡改數據集並未公佈DRESDEN(40k)、NIST'16(25k),製作數據集參考論文)。


實驗結果對比

評價指標使用像素級準確率(篡改語義)和AUC。

深度學習檢測造假圖像

table2是篡改分類精確度,LSTM-EnDec是最終使用的網絡,在LSTM-EnDec-Base基礎上微調得到。數據集為nist16,ieee,coverage,論文提出的網絡模型與其他比較效果最好。

table3是AUC在三個數據集上的得分,與其他8個模型比較結果均最佳。


模型侷限

深度學習檢測造假圖像

1.當patch較小時(原圖框較小),精度下降,篡改預測不準確(如圖e、f中間列)

2.網絡有時會判斷錯誤,e圖最後一列是非篡改區域,預測結果卻是篡改區域。


公眾號文章先行一步"深度學習框架點滴"

(ppt已製作完成,聊天框輸入“混合LSTM”)

我是休柏,向陽而來。



分享到:


相關文章: