論文題目:Hybrid LSTM and Encoder-Decoder Architecture for Detection of Image Forgeries
論文地址:https://ieeexplore.ieee.org/abstract/document/8626149
解讀
LSTMEnDec:cnn網絡與長短時記憶網絡相結合,雙流結構(與雙流faster類似),網絡結構如下。
![深度學習檢測造假圖像](http://p2.ttnews.xyz/loading.gif)
輸入圖像一流送到cnn網絡進行訓練(encoder),結構是卷積、殘差連接、最大池化提取空間特徵圖。另外一流把輸入圖像切分成64塊,對塊進行重採樣,提取重採樣特徵送到LSTM網絡得到8*8*Nf的特徵(通道Nf=64)。之後兩流特徵融合再上採樣(decoder),softmax輸出預測結果。
創新點
1.將圖像作為輸入,利用圖像的全局上下文再來進行切片操作。
2.雙流分支結構,一流進行patch採樣得到頻域特徵,另一流使用卷積進行編碼得到空間特徵,然後融合再解碼(上採樣)輸出。
3.提出新的篡改數據集用於訓練DRESDEN(40k)、NIST'16(25k)數據集未公佈。
LSTM流
![深度學習檢測造假圖像](http://p2.ttnews.xyz/loading.gif)
切片的64塊(32*32*3)小圖像先進入resampling feature進行重採樣,目的是找到可能的篡改區域。這裡就使用到了Radon變換,首先用laplacian(拉普拉斯)濾波器得到patch的線性預測誤差幅值,然後Radon用不同的投影角度把誤差累加起來,這樣就得到可能篡改區域的信息,最後輸出是8*8*Nh(Nh=128)。
下圖解釋為什麼使用Radon變換
主要看e圖,1、3為非篡改區域,2、4篡改區域,可以看到曲線峰值右側2、4(篡改)曲線更平緩。這點可以作為可能的有效信息來找到篡改區域。
接下來特徵將進入LSTM網絡,但是在這之前作者又引入了hilbert curve,因為LSTM性能很大程度取決於patch排序。重採樣得到的特徵是多維的,空間信息多而冗餘,使用希爾伯特曲線可以把多維空間轉為一維並且能關聯相鄰塊。
先分成四個大正方形,在每個大正方形裡分4個小正方形,小正方形裡再分4個單位正方形。線段通過調節曲線函數的參數能在小正方形裡走到4個單位正方形其他地方,虛線代表與其他小正方形(塊)的聯繫。
現在將正式把重採樣特徵喂到LSTM中,這裡使用兩個 stacked layers,64個時間步長,在每個時間步長的最後一層獲得64尺寸特徵向量,最後輸出8*8*Nf特徵。
Encoder流
圖像(256*256*3)喂到cnn中,依次卷積(卷積核3*3*d,d=32,64,128,256遞增)、最大池化(步長為2,特徵圖縮小2倍)、殘差連接,進行4次提取得空間特徵圖(此部分網絡結構不難)。
兩流融合上採樣
特徵融合這裡論文並沒有怎麼提(猜想應該是兩個8*8的拼接)。Decoder部分也比較簡單,上採樣、卷積、標準化做了兩次,最後接softmax(本質還是二分類,是或不是篡改)預測結果。
網絡的訓練實驗部分,細節處論文說的很少,作者把重點放在介紹他們自己創造的數據集(然而提出的篡改數據集並未公佈DRESDEN(40k)、NIST'16(25k),製作數據集參考論文)。
實驗結果對比
評價指標使用像素級準確率(篡改語義)和AUC。
table2是篡改分類精確度,LSTM-EnDec是最終使用的網絡,在LSTM-EnDec-Base基礎上微調得到。數據集為nist16,ieee,coverage,論文提出的網絡模型與其他比較效果最好。
table3是AUC在三個數據集上的得分,與其他8個模型比較結果均最佳。
模型侷限
1.當patch較小時(原圖框較小),精度下降,篡改預測不準確(如圖e、f中間列)
2.網絡有時會判斷錯誤,e圖最後一列是非篡改區域,預測結果卻是篡改區域。
公眾號文章先行一步"深度學習框架點滴"
(ppt已製作完成,聊天框輸入“混合LSTM”)
我是休柏,向陽而來。
閱讀更多 休柏樹 的文章