「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

Wang等人結合了經典iDT手工特徵和two-stream深度特徵,提出TDD。經典手工特徵計算時通常分兩步:檢測圖像中顯著和有信息量的區域,並在運動顯著的區域提取特徵。TDD將預訓練的two-stream網絡當作固定的特徵提取器。得到兩者特徵之後,TDD使用時空規範化以保證每個通道的數值範圍近似一致,使用通道規範化以保證每個時空位置的描述向量的數值範圍近似一致,之後用trajectory pooling並用Fisher向量構建TDD特徵,最後用SVM分類。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

C. Feichtenhofer, et al. Convolutional two-stream network fusion for video action recognition. CVPR'16.

Feichtenhofer等人研究如何融合兩分支的深度卷積特徵。他們發現級聯兩個特徵到2D維再用1×1卷積到D維的融合方法效果最好,之後再經過3D卷積和3D匯合後輸出。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

C. Feichtenhofer, et al. Spatio-temporal residual networks for video action recognition. NIPS'16.

Feichtenhofer將ResNet作為two-stream的基礎網絡架構,用預訓練網絡的權重初始化新的3D網絡:w(d, t, i, j)=w(d, i, j)/T。此外,有從光流分支到圖像分支的信息傳遞。此外,網絡輸入不是連續的,而是步長5到15幀。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

L. Wang, et al. Temporal segment networks: Towards good practices for deep action recognition. ECCV'16.

由於相鄰的幀信息冗餘度很高,對視頻密採樣是不必要的。Wang等人提出

TSN結構,其對視頻進行稀疏採樣,在避免冗餘信息的同時可以處理長距離依賴。TSN把輸入視頻分成K段,每段隨機選擇一個視頻片段(snippet),之後用two-stream結構提取特徵再融合。TSN取得了ActivityNet 2016年競賽的冠軍。

此外,除RGB和光流圖像輸入外,TSN還嘗試了RGB difference和warped光流兩種輸入,最終發現RGB+光流+扭曲(warped)光流的效果最好。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

Z. Lan, et al. Deep local video feature for action recognition. CVPR'17.

由於不是視頻中每幀都包含有用信息,Lan等人首先用TSN提取局部特徵,之後再進行聚合。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

R. Girdhar, et al. ActionVLAD: Learning spatio-temporal aggregation for action recognition. CVPR'17.

類似於NetVLAD,Girdhar等人用two-stream提取特徵,之後用VLAD得到視頻的表示。實驗中發現,圖像和光流兩個分支單獨處理效果最好。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

C. Feichtenhofer, et al. Spatio-temporal multiplier networks for video action recognition. CVPR'17.

Feichtenhofer等人發現,two-stream網絡在外觀分支容易過擬合。Feichtenhofer等人加入了兩個分支之間的信息交互,並發現乘性的信息交互效果最好。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

G. A. Sigurdsson, et al. Asynchronous temporal fields for action recognition. CVPR'17.

Sigurdsson等人利用全連接時序CRF對視頻的時序關係進行推斷。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

W. Zhu, et al. A key volume mining deep framework for action recognition. CVPR'16.

一段視頻中並非所有的幀都對識別任務同等重要,如果把它們同等看待,有價值的幀信息會淹沒在其他無關的幀中。藉助多示例學習思路,Zhu等人交替優化關鍵幀挖掘和分類兩個目標。網絡輸入N個視頻片段,輸出每個片段對應每個類別的分數。如果該類別對應真實標記,採用隨機匯合,否則是maxout匯合,其中響應最強的視頻片段即為得到的關鍵幀。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

Y. Wang, et al. Spatio-temporal pyramid network for video action recognition. CVPR'16.

Wang等人利用雙線性匯合融合兩個分支的特徵。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

A. Diba, et al. Deep temporal linear encoding networks. CVPR'17.

Diba等人對不同幀/片段的深度卷積特徵逐元素相乘,再通過精簡雙線性匯合得到最終的特徵表示。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

R. Girdhar and D. Ramanan. Attentional pooling for action recognition. NIPS'17.

將雙線性匯合用於TSN的圖像分支。在得到深度卷積特徵

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

之後,經典雙線性匯合會計算輸入屬於第k個類的分數

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

。Girdhar和Ramanan對參數矩陣

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

做了一個秩-1近似

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

實驗中, Girdhar和Ramanan將224大小的HMDB-51縮放到450大小,以確保最後的深度卷積特徵大小不會太小(14×14)。當特徵大小太小時,效果不顯著。另一方面,Girdhar和Ramanan只用了圖像分支來處理視頻,總體性能和state-of-the-art還有很大差距。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

I. C. Duta, et al. Spatio-temporal vector of locally max-pooled features for action recognition in videos. CVPR'17.

Duta等人研究如何聚合不同特徵。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

P. Weinzaepfel, et al. DeepFlow: Large displacement optical flow with deep matching. ICCV'13.

Dosovitskiy, et al. FlowNet: Learning optical flow with convolutional networks. ICCV'15.

E. Ilg, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks. CVPR'17.

由於經典光流算法很慢,因此有工作致力於使用深度神經網絡計算光流。DeepFlow在不同粒度上進行聚合和匹配,FlowNet基於類似於視覺跟蹤的思路使用互相關濾波綜合兩張圖的深度特徵最終生成光流。由於標記數據不足,FlowNet使用人工合成Chairs數據集進行訓練。FlowNet 2.0的貢獻有三點。(1). 發現如何進行訓練對結果影響至關重要,先在簡單的Chairs數據集上訓練、再在更真實的Things3D上訓練會比混合兩個數據集一起訓練效果更好。(2). 多個子網絡堆疊,並用中間光流結果對圖像進行扭曲輸入中間子網絡。(3). 有一個子網絡專注於微小運動。

其他視頻理解任務

時序動作定位(temporal action localization) 在一段未剪輯的視頻中找到動作開始和結束的時間,並對動作進行分類。

Z. Shou, et al. Temporal action localization in untrimmed videos via multi-stage CNNs. CVPR'16.

Shou等人提出SCNN

,用不同大小的滑動窗產生視頻片段,之後用3D候選區域網絡判斷該視頻片段是前景/背景,用3D分類網絡判斷K+1個類別的分數(包括背景),最後用定位網絡判斷開始/結束時間。後處理使用非最大抑制(NMS)。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

J. Gao, et al. TURN TAP: Temporal unit regression network for temporal action proposals. ICCV'17.

思路類似於Faster R-CNN。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

H. Xu, et al. R-C3D: Region convolutional 3D network for temporal activity detection. ICCV'17.

以C3D網絡為基礎,借鑑Faster R-CNN,對輸入視頻片段先提取特徵,再生成提取候選時序,最後RoI匯合後進行檢測。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

Z. Shou, et al. CDC: Convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos. CVPR'17.

類似於語義分割問題的思路,為了得到對應於每一幀的分類預測分數,Shou等人在3D卷積層之後提出CDC卷積,在空間方向用卷積進行下采樣,在時間方向上用轉置卷積進行上採樣。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

L. Wang, et al. UntrimmedNets for weakly supervised action recognition and detection. CVPR'17.

分類模塊用於對每個視頻片段進行分類,而選擇模塊用於給出不同視頻片段的重要性。選擇模塊的實現包括hard selection和soft selection。訓練時端到端聯合優化。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

Y. Zhao, et al. Temporal action detection with structured segment networks. ICCV'17.

Zhao等人提出SSN,講視頻分為三個部分,最終構成全局特徵。分類時有動作性分類器和完整性分類器。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

異常檢測(anomaly detection) 通常用於判斷監控視頻中出現的異常事件。

W. Sultani, et al. Real-world anomaly detection in surveillance videos. CVPR'18.

由於訓練時只知道一段視頻中有/沒有異常,而異常事件的種類和發生時刻未知,Sultani等人利用多示例學習,將異常檢測問題轉化為一個迴歸排序問題,讓異常樣本的排序值高於普通樣本,訓練時讓正負樣本之間的距離儘可能遠。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

視頻摘要與視頻濃縮(video summarization and video synopsis) 視頻摘要是從原始視頻中提取有代表性的關鍵幀,而視頻濃縮將多幀視頻合併成一幀。

M. Gygli, et al. Creating summaries from user videos. ECCV'14.

X. Li, et al. Surveillance video synopsis via scaling down objects. TIP'16.

“看視頻說話”(video captioning) 基本思路和看圖說話一致,用編碼網絡提取視頻信息,用解碼網絡生成文字描述。

S. Venugopalan, et al. Sequence to Sequence–Video to Text. ICCV'15.

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

第一視角視頻(first-person video) 研究第一視角視頻可以用於自動駕駛、機器人導航等。

T. Yagi, et al. Future person localization in first-person videos. CVPR'18.

Yagi等人提出行人位置預測任務,即根據行人歷史信息,預測下一幀行人的位置。Yagi等人用1D時域卷積來融合不同幀的特徵。

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

視頻生成(next frame generation) 有工作利用生成式模型對視頻進行生成。

M. Mathieu, et al. Deep multi-scale video prediction beyond mean square error. ICLR'16.

C. Vondrick, et al. Generating videos with scene dynamics. NIPS'16.

目標跟蹤(object tracking) 給定視頻第一幀中目標的位置(以包圍盒的形式),我們需要預測其他幀中該目標的包圍盒。目標跟蹤類似於目標檢測,但目標跟蹤的難點在於事先不知道要跟蹤的目標具體是什麼,因此無法事先收集足夠的訓練數據以訓練一個專門的檢測器。一種研究思路是利用孿生網絡,一支輸入第一幀包圍盒內圖像,另一支輸入其他幀的候選圖像區域,通過互相關操作(卷積),得到二維的響應圖,其中最大響應位置確定了需要預測的包圍盒位置。

L. Bertinetto, et al. Fully-convolutional siamese networks for object tracking. ECCV'16 Workshop.

M. Danelljan, et al. ECO: Efficient Convolution Operators for tracking. CVPR'17.

E. Valmadre, et al. End-to-end representation learning for correlation filter based tracking. CVPR'17.

「乾貨」計算機視覺視頻理解領域的經典方法和最新成果

可能的未來方向

  • 利用多示例學習進行視頻分析。未剪輯視頻中有很多無關內容,並非視頻中所有的幀都對應於該視頻標記,這符號多示例學習的設定。雖然Zhu等人在CVPR'16和Kar等人在CVPR'17的工作中對這方面已有一些探索,但仍有後續精進的空間。
  • 精度與效率。Two-stream和3D卷積的方法相比,大致來說前者的效果更好,但前者需要逐幀圖像前饋網絡,而後者一次可以處理多幀,因此前者效率不如後者,尤其是預先計算並保存光流是一個很繁重的負擔。如何能同時利用兩者的優點是未來一個可能的研究方向,Feichtenhofer等人在CVPR'16已有初步的工作。LSTM能捕獲的長距離依賴程度有限,並且更難訓練,速度也更慢,因此ConvLSTM的方法在視頻分析中用的不多。
  • 資源受限下的視頻分析。相比圖像數據,處理視頻數據需要更大的計算和存儲資源。現實應用中很多是資源受限的,如何在這種場景下進行視頻分析是一大挑戰。將視頻解壓為能輸入網絡的一幀幀圖像也需要不小的資源開銷,Wu等人在CVPR'18提出直接利用原始視頻輸入,並利用視頻壓縮編碼中的運動信息。
  • 更大、更通用數據集。哪種方法更好和用什麼數據集(解決什麼任務)有很大關係。如果視頻本身就比較靜止,或者單幀圖像已經包含了足夠的信息,那麼用逐幀單獨處理的策略已經可以取得很好的結果。
  • 視頻=圖像+音頻。視頻是一種多模態的數據形式,能否利用音頻信息輔助視頻分析呢。Aytar等人在NIPS'16的工作中利用圖像輔助音頻分析。

Y. Aytar, et al. SoundNet: Learning sound representations from unlabeled video. NIPS'16.

最後列出一些相關的綜述文章。其中Tran等人實驗研究了不同採樣步長、不同輸入大小、不同網絡配置等對性能的影響。

Z. Wu, et al. Deep learning for video classification and captioning. arXiv: 1609.06782.

D. Tran, et al. ConvNet architecture search for spatio-temporal feature learning. arXiv: 1708:05038.

M. Asadi-Aghbolaghi, et al. A survey on deep learning based approaches for action and gesture recognition in image sequences. FG'17.

S. Herath, et al. Going deeper into action recognition: A survey. IVC'17.

張皓:南京大學計算機系機器學習與數據挖掘所(LAMDA)碩士生,研究方向為計算機視覺和機器學習,特別是視覺識別和深度學習。個人主頁:goo.gl/N715YT


分享到:


相關文章: