學習一幀,爲整段黑白視頻上色:谷歌提出自監督視覺追蹤模型

選自Google AI Blog

機器之心編譯

參與:劉曉坤、路雪

追蹤視頻中的物體一直是計算機視覺領域中的基本問題,對於動作識別、對象交互或視頻風格化等應用非常重要。然而,教會機器視覺追蹤物體是一個具有挑戰性的任務,因為它需要大量經過標註的追蹤數據集用於訓練,而大規模的標註通常是不切實際的。

在谷歌最近提交的論文《Tracking Emerges by Colorizing Videos》中,研究人員引入了一種為灰度視頻著色的卷積神經網絡,但它只需要參考單幀已著色的參考圖像,並複製參考幀的顏色。在新方法中,神經網絡可以自動無監督地對物體進行視覺追蹤。更重要的是,儘管模型並未明確地為目標追蹤進行訓練,但它仍然可以追蹤多個目標、追蹤被遮擋的目標、並適應目標的變形保持穩定追蹤——這並不需要任何經過標註的訓練數據。

學習一幀,為整段黑白視頻上色:谷歌提出自監督視覺追蹤模型

在公開學術數據集 DAVIS 2017 上的追蹤預測示例。在學習對視頻著色之後,在無監督的情況下湧現了一種自動追蹤對象的機制。研究人員在第一幀中指定感興趣的區域(用不同顏色表明),模型無需任何額外學習或監督即可自動進行追蹤。

學習為視頻重新上色

谷歌研究人員假設顏色的時間一致性為教機器追蹤視頻區域提供了優秀的大規模訓練數據。很明顯,總有例外,即顏色不具備時間一致性(如突然開燈)的情況,但是通常顏色不會隨著時間而改變。此外,大部分視頻都包含顏色,這提供了可擴展自監督學習信號。谷歌研究人員先去掉視頻的顏色,然後再著色,因為視頻中可能有多個對象顏色相同,而通過著色我們可以教機器追蹤特定的對象或區域。

為了訓練系統,谷歌研究人員利用 Kinetics 數據集中的視頻,該數據集是一個日常活動視頻的大型開放集合。谷歌研究人員將所有視頻幀轉換成灰度圖像(除了第一幀),然後訓練一個卷積網絡預測後續幀的原始顏色。研究人員期望模型學會追蹤視頻區域,以準確恢復原始顏色。其主要觀測結果是追蹤著色對象的需求使我們得到自動學習追蹤對象的模型。

學習一幀,為整段黑白視頻上色:谷歌提出自監督視覺追蹤模型

研究者使用 DAVIS 2017 數據集中的視頻來展示視頻重著色任務的實現。該模型接收一個彩色幀和一個灰度視頻作為輸入,然後預測視頻其他幀的顏色。該模型能使用在沒有人類監督的條件下學習到的追蹤機制,學會複製參考幀中的顏色。

學習複製單個參考幀的顏色需要模型學會內在地指向正確的區域以複製正確的顏色。這迫使模型學習一種特定的用於追蹤的機制。為了瞭解該視頻著色模型如何工作,下方展示了一些對 Kinetics 數據集中的視頻進行著色預測的示例。

學習一幀,為整段黑白視頻上色:谷歌提出自監督視覺追蹤模型

使用公開數據集 Kinetics,將著色參考幀應用到輸入視頻後的預測顏色示例。

雖然沒有使用真值標識訓練,該模型也能學會追蹤視頻第一幀指定的任何視覺區域。我們可以追蹤視頻中的對象輪廓或一個點。唯一做出的改變是在視頻中傳播表示感興趣區域的標記,以取代傳播顏色。

分析追蹤器

由於該模型是在大量未標註視頻上訓練的,研究者希望深入瞭解模型的學習過程。下方的視頻展示了一個標準的追蹤過程:通過 PCA 將模型學得的嵌入投影到三維空間進行可視化,並做成 RGB 影片的形式。結果表明學習到的嵌入空間的最近鄰傾向於對應目標標識(object identity),即使經過變形或視角改變。

學習一幀,為整段黑白視頻上色:谷歌提出自監督視覺追蹤模型

上行:來自 DAVIS 2017 數據集的視頻。下行:可視化著色模型的內部嵌入。相似的嵌入在這個可視化中有相似的顏色。這表明學習到的嵌入通過目標標識對像素進行了分組。

追蹤姿態

研究者發現該模型也可以在給定初始幀關鍵點時追蹤人類姿態。他們在公開學術數據集 JHMDB 上展示了結果,其中模型追蹤的是人類關節骨架。

學習一幀,為整段黑白視頻上色:谷歌提出自監督視覺追蹤模型

使用模型追蹤人類骨架運動的示例。在這個案例中輸入是第一幀的人類姿態,之後的運動被自動追蹤。即使模型從來沒有在這個任務上進行訓練,它也能夠追蹤人類姿態。

雖然這個著色模型並沒有超越強監督模型,但它可以學習追蹤視頻分割和人類姿態,且超越了最近出現的基於光流的方法 FlowNet 2.0。打破運動類型達到的高性能表明該模型在很多自然複雜度場景(例如動態背景、快速運動和遮擋)下比光流方法更加魯棒。

未來工作

研究結果表明視頻著色提供的信號可以用於學習追蹤視頻中的對象,且無需監督。此外,研究者發現該系統中出現的失敗和視頻著色失敗相關,這表明進一步優化視頻著色可以改善自監督追蹤。

論文:Tracking Emerges by Colorizing Videos

學習一幀,為整段黑白視頻上色:谷歌提出自監督視覺追蹤模型

論文鏈接:https://arxiv.org/abs/1806.09594

摘要:我們使用大量未標註視頻在沒有人類監督的條件下學習視覺追蹤模型。我們利用顏色的自然時間一致性來創建模型,該模型能學習通過從一個參考幀複製顏色來對灰度視頻著色。定量和定性實驗表明這個任務能讓模型自動學會追蹤視覺區域。雖然該模型沒有用任何真值標籤訓練,但我們的方法能夠很好地實現追蹤並超越基於光流的方法。最後,我們的結果表明追蹤失敗的原因和著色失敗相關,這意味著改進視頻著色也許能進一步提升自監督視覺追蹤。


分享到:


相關文章: