CVPR'20: 自監督學習-通過輔助推理任務實現高效的視覺語義導航

2020-04-01 11:11:44 將門創投

作者來自將門計算機視覺社群：朱峰達

本文為將門好聲音第40期，也是CVPR 2020系列分享的第·4·期，歡迎廣大群友來投稿！

作者是來自將門計算機視覺社群、蒙納士大學的在讀博士生朱峰達，這次分享的是CVPR 2020 Oral工作：自監督學習——通過輔助推理任務實現高效的視覺語義導航。

論文鏈接：

https://arxiv.org/abs/1911.07883

關於作者

朱峰達本科畢業於北航軟件工程系，是蒙納士大學信息技術學院數據科學與人工智能系的博士生，師從蒙納士大學的常曉軍老師和中山大學的梁小丹老師。他的研究興趣在於機器學習中的視覺語言導航和推理任務。

寫在前面

視覺語言導航（Vision Language Navigation）是一個機器學習的新興任務。它的目的是讓一個智能體能夠在真實的3D環境中根據自然語言指令導航至正確的地點。這個任務有很多難點：

1. 提取並融合視覺和語言的特徵

2. 學習導航軌跡和房間結構的語義信息

3. 如何在未知的房間中利用已學習的知識進行探索。

傳統的方法主要著重於視覺和語義特徵的提取和融合，並將融合過後的混合特徵通過一個策略網絡生成動作。用這種方式學到的模型只對特徵之間的相似度敏感，而對訓練環境中的隱含信息，比如軌跡的語義和房間的結構沒有直觀認識。

而在這篇文章中，我們用自監督的方法，從環境中挖掘了豐富的隱含信息（比如室內結構圖或者子軌跡的部分語義信息）。它們為我們的模型提供了更豐富的訓練信號。

我們提出了四種不同的輔助推理任務：

1. 解釋之前的動作

2. 估計導航的進度

3. 預測語言和軌跡的吻合程度

4. 預測下一步的方向。

我們的實驗證明這四個輔助推理任務可以幫助我們模型導航得更精確、更有效率，並且它們可以使模型在沒有標註的房間裡進行自適應學習。同時，輔助推理任務可以讓模型具有可解釋性。在測試環境中，我們通過模型在輔助任務上的輸出可以更加了解模型的“思考”方式。

一個簡單的例子

如圖所示為一個用自監督輔助任務來訓練導航模型的簡單例子。模型從綠點開始，根據一個自然語言指令走到目標紅點。藍色的點表示模型下一步可以導航到的位置，也就是隱式的室內結構圖。途中每一時刻它都會被要求預測四個輔助任務的結果。輔助任務帶來的額外信息和語義約束可以幫助模型更好地學習這個任務。

方法細節描述

我們提出了一個基於強化學習、監督學習和自監督學習的混合學習框架 (AuxRN) 來完成室內導航任務。

從視覺語言輸入到動作序列預測

首先我們要分別編碼歷史視覺信息和全局語義信息。我們將當前點的全景圖經過一個注意力模塊 Attno 獲得當前點的全景視覺編碼，再經過一個LSTMv 模塊獲得一個歷史軌跡的視覺編碼。該特徵編碼了模型從開始到當前步的歷史軌跡。我們再將自然語言指令經過一個雙向 LSTM 獲得一組語言的特徵編碼。為了將視覺特徵和自然語言特徵對齊，我們將視覺信息和語言信息通過另一個注意力模塊 Attnw。這一步是為了根據最近幾步看到的視覺信息找到對應的自然語言指令的位置，從而獲得確切的子指令。最後我們從導航模擬器中獲取下一步可導航位置，獲取從當前點看向該位置方向的視覺特徵，利用一個注意力模塊 Attnc 輸出分類結果作為下一步要採取的動作。

模型輸出的動作序列使用監督學習和強化學習聯合訓練。監督學習的數據來源於從起點到終點的最短路，而強化學習的獎勵函數來源於當前步比上一步距離目標點縮短的距離。

四種輔助推理任務

在此基礎上，我們提出了四種自監督輔助推理任務來挖掘環境中的隱含信息。

指令重述任務

首先我們希望我們的視覺編碼模塊能夠獲得和自然語言指令相同的語義特徵。同時為了約束模型的訓練過程，讓模型能夠在有限時間內收斂，我們簡化了任務。我們保存每一步的歷史視覺編碼，獲得視覺特徵。我們將自然語言句子通過一個LSTM模塊編碼成一組特徵向量，將語言和視覺特徵通過一個注意力模塊 Attns 融合，再從融合過後的編碼中分離出目標詞向量。

進度預測任務

模型可以通過學習導航的進度來加深導航任務的理解。它能幫助模型更好地對齊視覺和語言特徵。我們改進了之前的工作，用噪音更小的步數代替距離作為導航進度的標籤，用交叉熵 (Binary Cross Entropy) 損失函數代替均方差 (Mean Square Error) 損失函數。

多模態匹配任務

在多模態匹配任務中，我們將自然語言特徵組經過一個均值池化層（在圖中用P表示）獲得一個自然語言特徵向量。我們以0.5的概率用數據集中的另一條不相關的自然語言向量替換這個向量（在圖中用S表示）。最後，我們將這個向量和語言特徵向量連接（在圖中用C表示）通過兩層全連接層和一層Sigmoid 激活層獲得它們匹配的概率

在實現的時候，考慮到訓練的效率，替換這個操作侷限於一個batch內，我們會把0.5概率選中的自然語言向量用同一batch的另一個自然語言向量代替。這個操作可以並行化。

角度預測任務

在一開始我們提到了我們的動作預測是通過一個注意力機制實現的。從導航模擬器中獲取下一步可導航位置的一個候選集。將語言和視覺的融合特徵與候選集的視覺特徵逐一匹配，選擇匹配度最大的那個作為下一步要走的方向。用這種方式學到的模型只對特徵之間的相似度敏感，而對房間結構沒有顯式的感知。我們可以讓模型預測下一步要走的方向來約束模型，使其能夠學到有關房間結構的信息，而這些信息對導航是有幫助的。

最後，我們將這四個輔助任務的損失和主函數的損失加到一起進行訓練

在這裡我們沒有做過多的調參工作，把各損失的權重都設置為1即可。

實驗結果

我們的模型在標準視覺語言導航數據集(R2R)上取得了第一名的成績。

Leaderboard的地址：

https://evalai.cloudcv.org/web/challenges/challenge-page/97/leaderboard/270

我們的對比實驗說明了各個輔助任務都會對模型的性能有較大提升。並且它們的聯合訓練會進一步提升模型的性能。

我們可視化了兩個在測試集上的導航軌跡。在序列開始模型會收到自然語言指令的輸入，指示每一步要走的方向和目標物體。每走一步模型都收到一張全景圖作為視覺輸入。紅色箭頭代表模型預測的下一步去往的方向。我們可以看到模型準確地到達了目標位置，並且模型能夠準確預測導航的進度以及軌跡和語言指令的匹配程度。

這裡我們做了一個 demo 分享了更多可視化結果，供大家直觀地瞭解數據集分佈和我們的模型所能達到的效果。

-The End-

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景，激活和實現全新的商業價值，服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容，使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景，實現商業價值的初創企業，關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間裡，將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”: [email protected]

分享到:

閱讀更多 將門創投 的文章

關鍵字: 軟件工程莫納什大學文章

洛陽市直屬學校普通高中例會一組“綻放青春強國擔當洛陽青年話五四”雲團課開講了

2020年5月3日，在“洛小青工作室”釘釘群，一場別開生面的主題雲團課開講了。本期雲團課由洛陽市第十四中學團委書記陳曉慶召集、例會組各學校團委書記聯合發起，洛陽市第十五中學團委書記張改霞擔任主持人，洛陽梅森高中團委書記李藝丹擔任團課群班長。雲團課在團市委學校部部長郭兵指導下進行。

貞豐中學：開展模擬演練加強防控備開學

洛陽小學生開學，家長稱神獸歸籠，校長呼籲家校共擔教育責任

大河報·大河客戶端記者

36秒｜設立體溫檢測通道、調整班級！棗莊初中畢業生開學復課紮緊防疫“安全網”

齊魯網·閃電新聞5月6日訊

2020看中考名校丨南京航空航天大學附屬高級中學：夢想領航

前行時被絆倒的傷痛，由夢想來治癒。就算被捆綁住努力，心裡的夢一樣能掙脫束縛飛翔，就算有再大的風，也擋不住勇敢的衝動。那是夢想在雲端閃閃發亮，指引著我們勇敢飛翔。

高考總複習系列-第1節課實錄-集合與函數

本視頻為高考總複習系列：第一節課實錄主要內容為集合總複習，高中指數函數，對數函數，冪函數的複習接下來會持續更新總複習系列

《聲律啟蒙》系列微課（一）

《聲律啟蒙》由清代進士車萬育按韻編寫，內容涉及歷史典故、天文地理、花草樹木……是一部豐富學生知識的百科全書，更是一部讀起來朗朗上口，利於孩子掌握聲韻格律、學習詩文對句，習得寫作技巧的啟蒙讀物。2020年4月，教育部首次向全國中小學生髮布的閱讀指導目錄裡，將《聲律啟蒙》列入其中。

答辯老師，“您批評得是”

撰文、

仙桃八千多名高中畢業年級學子今日開學，現場是這樣子的！

期待著，盼望著終於迎來了屬於我們的開學季5月6日，湖北省高三年級統一開學同學們回到了闊別已久學校今天，全市11所高中畢業年級（含中職和技校）共8685名學子先行開學啦史上“最長寒假”正式結束高三學子踏入闊別已久的校園為復課做足準備所有高三畢業年級的學校全都開啟“滿格電”模式對校園

被世界前1%大學（uwo）認可的線上英語課程

想上世界名校，是否也在一直找尋一個合適孩子的網課？還沒拿到大學offer，是否也一直苦惱，刷不出雅思分數？即使拿到了offer，

中國大學生的英語聽說水平不如美國3歲小孩？

試問一個土生土長中國人，英語學到什麼程度，才算是高手？過了專業八級？託福雅思考高分？其實都不是，能無障礙聽懂英語國家的電視節目，才是英語高手。能做到這一點，那麼，他在國內的英語學習領域可以說是冠絕群雄，達到了獨孤求敗的境地。因為，國人學習英語的方法，註定了大家幾乎不能做到這一點。

100個戰“疫”感動瞬間成學校鮮活教材

4月下旬，我市各小學陸續復課。天元區銀海學校的學生們收到了一份特殊的教材，由孩子們自己創作的《感動生命的100個瞬間----全民抗疫戰特輯》，記錄了疫情防控阻擊戰中孩子們的所見、所思、所感。

今日，鄭州市中學全面復學中招考試信息採集同時啟動

5月6日一早，鄭州市高一高二，初一初二年級學子重返久違的校園，

久違的校園，我們回來了！鄭州市中學今日全面復學

美麗的五月如期而至，5月6日一早，伴隨著初升的朝陽，鄭州市高一高二，初一初二年級學子重返久違的校園，和提前復課的高三、初三學長學姐們一道“重啟”校園生活

李玫瑾教授：孩子的問題是成人造成的，出現問題需從大人身上解決

孩子的問題，往往是成年人造就的。孩子的每種心理和行為，和父母的行為有關，和父母的教育方式有關。真正要解決的問題，不在於孩子，而在於父母和家庭。未成年人的問題是滯後反映。青春期的問題，癥結在12歲以前，或更早。

武漢市第十四中學：一個班級一層樓，抗疫志願者上開學第一課

楚天都市報5月6日訊高三複學返校第一天，早上6點50，武漢市第十四中學校園內已經有不少學生了。他們揹著書包，互相打著招呼，不少學生說：十分想念，所以早點來。

開學復課：柘裡渡小學：分通道進教室

在高新區柘裡渡小學，學生們則在老師的引導下，分兩個通道測溫消毒後，有序進入久違的校園。【同期聲】肖敏

濰坊青州市委書記韓幸福現場檢查初中學校畢業年級開學復課工作

齊魯網·閃電新聞5月5日訊5月5日上午，濰坊青州市委書記韓幸福現場檢查初中學校畢業年級開學復課工作時強調，要始終把師生生命安全和身體健康放在第一位，精準有效抓好學校疫情防控工作，充分做好初中學校畢業年級開學復課各項準備，切實守牢校園安全底線。

阿卡索家長課堂：孩子不願意開口？在線英語創造純英文學習環境！

以下兩個場景可能家長們並不陌生：場景一：當你和孩子在逛街的途中，這時遇到了一個問路的外國人，你希望你的孩子能夠大膽、自信地去跟外國人溝通並幫助他。但是孩子卻顯得不知所措，甚至不願意開口。

長清區萬德界首小學春意盡萬物秀盛始夏萬物長夏天系列發佈

濟南市長清區萬德界首小學——界首教育春風化雨

基於SpringBoot的城院疫情防控系統的設計與實現(ssm,mysql)

【項目包含內容】

如何看待大多青年不認可《後浪》？

今天，我在朋友圈看到了很多“唱反調”的文章、評論，比如：《為什麼朋友圈裡轉發後浪的大多是領導和老闆、叔叔阿姨？》《我不是B站所謂的後浪》“中年討好新生代”“年輕人真的喜歡嗎？

創意跑紀念五四，南航學生雲端“火炬接力”

揚子晚報網5月4日訊（通訊員

視頻丨我市組織開展初中畢業年級師生血清抗體檢測

【導語】全市初中畢業年級將於5月6號正式開學。為全面做好開學復課工作，3號、4號兩天，我市組織對初中畢業年級師生、後勤服務人員及工作組成員開展血清抗體檢測。

4000英語核心詞彙學習（2）Book1Unit2 圖解+英英釋義+例句+閱讀

如何開始一段英文對話？有時候想要和英語母語者分享自己的故事，卻不知道怎麼去述說。話到嘴邊，卻找不到一個合適的詞彙。在學習英語的過程中，好比建房子，詞彙便是磚瓦。今天接著給大家分享

深圳一線名師是怎麼上課的？中考語文：人物描寫方法及作用

福田區教科院邀請、招募全區各中學語文學科組長、名師、骨幹精心設計製作考點課件+考點學習單+講練結合的微課+考點針對性練習學習包，一共製作了72箇中考語文考點學習資料包。

深圳一線名師是怎麼上課的？中考語文：議論文拓展開放題

深圳一線名師是怎麼上課的？中考語文：論證方法及其作用

深圳一線名師是怎麼上課的？中考語文：論據的辨析

深圳一線名師是怎麼上課的？中考語文：如何找論點&開頭的作用

深圳一線名師是怎麼上課的？中考語文：議論文補充論據

在tomcat如何進行斷點調試

Eclipse會為每一個tomcat部署的項目單獨建立一份配置文件。tomcat真正訪問的是tomcat部署的web項目，tomcat部署的web項目對應著工作空間項目的web目錄下的所有資源。在tomcat裡面如何進行斷點調試。

小學數學一招教你秒懂【一位數乘99得簡便算法】看誰算的快

如果對你有幫助，關注我【嚴老師小學數學教學】，有問題的可以在留言區討論，後期會為大家帶來更多的視頻和資料！！敬請關注！！

小學數學必考【巧算題】

如果對你有幫助，關注我【嚴老師小學數學教學】，有問題可以留言，後期會為大家帶來更多的學習視頻和資料！！敬請關注！！

【社科戰疫快報－278期】濱職馬克思主義學院系列“思政課戰疫小課堂”之“全球疫情防控中的大國擔當”

★舉旗幟

基於SSM技術的高考輔助選校系統的設計與實現(SSM,MySQL)

【項目包含內容】

webservlet註解

瀏覽器訪問servlet的簡單方法前面我們是通過web.xml的配置來訪問的，太複雜了，因為每寫一個servlet都需要在xml中寫那麼多代碼Servlet3.0:好處:支持註解配置。可以不需要web.xml了。步驟:1.創建JavaEE項目，選擇Servlet的版本3.

看外教老師怎麼帶小學員幾分鐘學會表達自己喜歡的食物

今天，要給大家介紹的外教老師是老師Angie。在這節課上，安吉老師帶著小學員幾分鐘就學會了表達自己喜歡的食物。她是如何做到的呢？我們一起來看一下吧！首先，外教老師用圖片教會孩子幾個常見的食物單詞。一邊教單詞，一邊問孩子，“Do

半年300小時聽力輸入，父與子繪本的故事他能輕鬆背出來！

大思英語小達人755期：元寶

放飛春天！東南大學手繪風箏節來啦

記者從東南大學瞭解到，五一期間，東大舉行了“春到九龍”風箏設計與放飛活動。活動採用線上預約的方式，在5月1日-5日期間分批、分時間進行，現場設有放風箏、手繪風箏、踢鍵子、跳繩等項目，來自各院系的近500名師生報名參加。

「品質白中●化雨」五四精神傳承有我—白關中學組織開展“我們的青春在白中”五四主題活動

—中國青年節—

深圳一線名師是怎麼上課的？中考語文：文言詞語解釋專題複習

濰坊錦海小學：向勞動者致敬，我有我的方式！

“民生在勤，勤則不匱”，勞動是財富的源泉，也是幸福的源泉。“夙興夜寐，灑掃庭內”，熱愛勞動是中華民族的優秀傳統，綿延至今。　　近日，濰坊錦海小學開展了“勞動最光榮”系列活動，以激發學生內心對勞動的尊重，培養勤勞的品質，爭做新時代有為青年！

深圳一線名師是怎麼上課的？中考語文：如何概括散文和小說的主題

深圳一線名師怎麼上課？中考語文閱讀《分析句子的含義和作用》

2.適用於EDIUS 8的HitFilm Ignite

在此播客中，我們介紹由FXHome推出的EDIUS

深圳一線名師課：中考語文閱讀《說明文開頭的作用和延伸拓展題》

深圳一線名師是怎麼上課的？中考《理清說明順序，篩選關鍵信息》

TED演講中英字幕：成為孩子堅定不移的支持者（視頻+演講稿）

關鍵詞（Keyword）：TED演講，潛能，支持者，相信，擁護者，演講簡介：如何把每一個孩子培養成自信、自在、努力、內心充盈的最優秀的那個自己？一個好老師能發掘出孩子的潛能，一個合格的老師，就會堅信每一個孩子都是最棒的。

Jsp+Ssm+Mysql校園二手市場交易平臺(源碼)+運行指導視頻

【功能描述】本項目是一款由jsp+ssm+mysql實現的校園二手市場交易平臺，本系統一共有三種角色