萬字長文詳解騰訊優圖 CVPR 2019 入選論文

雷鋒網 AI 科技評論消息,CVPR 2019 即將於 6 月在美國長灘召開。今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。此次,騰訊公司有超過 58 篇論文被本屆 CVPR 接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab 33 篇,以下便是對騰訊優圖實驗室 25 篇被錄用論文的詳細介紹。

1. Unsupervised Person Re-identification by Soft Multilabel Learning

軟多標籤學習的無監督行人重識別

万字长文详解腾讯优图 CVPR 2019 入选论文

相對於有監督行人重識別(RE-ID)方法,無監督 RE-ID 因其更佳的可擴展性受到越來越多的研究關注,然而在非交疊的多相機視圖下,標籤對(pairwise label)的缺失導致學習鑑別性的信息仍然是非常具有挑戰性的工作。為了克服這個問題,我們提出了一個用於無監督 RE-ID 的軟多標籤學習深度模型。該想法通過將未標註的人與輔助域裡的一組已知參考者進行比較,為未標註者標記軟標籤(類似實值標籤的似然向量)。 基於視覺特徵以及未標註目標對的軟性標籤的相似度一致性,我們提出了軟多標籤引導的 hard negative mining 方法去學習一種區分性嵌入表示(discriminative embedding)。由於大多數目標對來自交叉視角,我們提出了交叉視角下的軟性多標籤一致性學習方法,以保證不同視角下標籤的一致性。為實現高效的軟標籤學習,引入了參考代理學習(reference agent learning)。我們的方法在 Market-1501 和 DukeMTMC-reID 上進行了評估,顯著優於當前最好的無監督 RE-ID 方法。

2. Visual Tracking via Adaptive Spatially-Regularized Correlation Filters

基於自適應空間加權相關濾波的視覺跟蹤研究

万字长文详解腾讯优图 CVPR 2019 入选论文

本文提出自適應空間約束相關濾波算法來同時優化濾波器權重及空間約束矩陣。首先,本文所提出的自適應空間約束機制可以高效地學習得到一個空間權重以適應目標外觀變化,因此可以得到更加魯棒的目標跟蹤結果。其次,本文提出的算法可以通過交替迭代算法來高效進行求解,基於此,每個子問題都可以得到閉合的解形式。再次,本文所提出的跟蹤器使用兩種相關濾波模型來分別估計目標的位置及尺度,可以在得到較高定位精度的同時有效減少計算量。大量的在綜合數據集上的實驗結果證明了本文所提出的算法可以與現有的先進算法取得相當的跟蹤結果,並且達到了實時的跟蹤速度。

3. Adversarial Attacks Beyond the Image Space

超越圖像空間的對抗攻擊

生成對抗實例是理解深度神經網絡工作機理的重要途徑。大多數現有的方法都會在圖像空間中產生擾動,即獨立修改圖像中的每個像素。在本文中,我們更為關注與三維物理性質(如旋轉和平移、照明條件等)有意義的變化相對應的對抗性示例子集。可以說,這些對抗方法提出了一個更值得關注的問題,因為他們證明簡單地干擾現實世界中的三維物體和場景也有可能導致神經網絡錯分實例。

在分類和視覺問答問題的任務中,我們在接收 2D 輸入的神經網絡前邊增加一個渲染模塊來拓展現有的神經網絡。我們的方法的流程是:先將 3D 場景(物理空間)渲染成 2D 圖片(圖片空間),然後經過神經網絡把他們映射到一個預測值(輸出空間)。這種對抗性干擾方法可以超越圖像空間。在三維物理世界中有明確的意義。雖然圖像空間的對抗攻擊可以根據像素反照率的變化來解釋,但是我們證實它們不能在物理空間給出很好的解釋,這樣通常會具有非局部效應。但是在物理空間的攻擊是有可能超過圖像空間的攻擊的,雖然這個比圖像空間的攻擊更難,體現在物理世界的攻擊有更低的成功率和需要更大的干擾。

4. Learning Context Graph for Person Search

基於上下文圖網絡的行人檢索模型

万字长文详解腾讯优图 CVPR 2019 入选论文

本文由騰訊優圖實驗室與上海交通大學主導完成。

近年來,深度神經網絡在行人檢索任務中取得了較大的成功。但是這些方法往往只基於單人的外觀信息,其在處理跨攝像頭下行人外觀出現姿態變化、光照變化、遮擋等情況時仍然比較困難。本文提出了一種新的基於上下文信息的行人檢索模型。所提出的模型將場景中同時出現的其他行人作為上下文信息,並使用卷積圖模型建模這些上下文信息對目標行人的影響。我們在兩個著名的行人檢索數據集 CUHK-SYSU 和 PRW 的兩個評測維度上刷新了當時的世界紀錄,取得了 top1 的行人檢索結果。

5. Underexposed Photo Enhancement using Deep Illumination Estimation

基於深度學習優化光照的暗光下的圖像增強

本文介紹了一種新的端到端網絡,用於增強曝光不足的照片。我們不是像以前的工作那樣直接學習圖像到圖像的映射,而是在我們的網絡中引入中間照明,將輸入與預期的增強結果相關聯,這增強了網絡從專家修飾的輸入/輸出圖像學習複雜的攝影調整的能力。基於該模型,我們制定了一個損失函數,該函數採用約束和先驗在中間的照明上,我們準備了一個 3000 個曝光不足的圖像對的新數據集,並訓練網絡有效地學習各種照明條件的豐富多樣的調整。通過這些方式,我們的網絡能夠在增強結果中恢復清晰的細節,鮮明的對比度和自然色彩。我們對基準 MIT-Adobe FiveK 數據集和我們的新數據集進行了大量實驗,並表明我們的網絡可以有效地處理以前的困難圖像。

6. Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation

基於同態隱空間插值的不成對圖片到圖片轉換

生成對抗網絡在不成對的圖像到圖像轉換中取得了巨大成功。循環一致性允許對沒有配對數據的兩個不同域之間的關係建模。在本文中,我們提出了一個替代框架,作為潛在空間插值的擴展,在圖像轉換中考慮兩個域之間的中間部分。該框架基於以下事實:在平坦且光滑的潛在空間中,存在連接兩個採樣點的多條路徑。正確選擇插值的路徑允許更改某些圖像屬性,而這對於在兩個域之間生成中間圖像是非常有用的。我們還表明該框架可以應用於多域和多模態轉換。廣泛的實驗表明該框架對各種任務具有普遍性和適用性。

7. X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks

基於生成對抗網絡的雙平面 X 光至 CT 生成系統

當下 CT 成像可以提供三維全景視角幫助醫生了解病人體內的組織器官的情況,來協助疾病的診斷。但是 CT 成像與 X 光成像相比,給病人帶來的輻射劑量較大,並且費用成本較高。 傳統 CT 影像的三維重建過程中圍繞物體中心旋轉採集並使用了大量的 X 光投影,這在傳統的 X 光機中也是不能實現的。在這篇文章中,我們創新性的提出了一種基於對抗生成網絡的方法,只使用兩張正交的二維 X 光圖片來重建逼真的三維 CT 影像。核心的創新點包括增維生成網絡,多視角特徵融合算法等。我們通過實驗與量化分析,展示了該方法在二維 X 光到三維 CT 重建上大大優於其他對比方法。通過可視化 CT 重建結果,我們也可以直觀的看到該方法提供的細節更加逼真。在實際應用中, 我們的方法在不改變現有 X 光成像流程的前提下,可以給醫生提供額外的類 CT 的三維影像,來協助他們更好的診斷。

8. Semantic Regeneration Network

語義再生網絡

万字长文详解腾讯优图 CVPR 2019 入选论文

本文研究了使用深度生成模型推斷視覺上下文的基本問題,即利用合理的結構和細節擴展圖像邊界。這個看似簡單的任務實際上面臨著許多關鍵的技術挑戰,並且具有其獨特的性質。任務裡兩個主要問題是擴展尺寸和單面約束。我們提出了一個具有多個特殊貢獻的語義再生網絡,並使用多個空間相關的損失來解決這些問題。本文最終的實驗結果包含了高度一致的結構和高品質的紋理。我們對各種可能的替代方案和相關方法進行了廣泛的實驗。最後,我們也探索了我們的方法對各種有趣應用的潛力,這些應用可以使各個領域的研究受益。

9. Towards Accurate One-Stage Object Detection with AP-Loss

利用 AP 損失函數實現精確的一階目標檢測

一階的目標檢測器通常是通過同時優化分類損失函數和定位損失函數來訓練。而由於存在大量的錨框,分類損失函數的效果會嚴重受限於前景-背景類的不平衡。本文通過提出一種新的訓練框架來解決這個問題。我們使用排序任務替換一階目標檢測器中的分類任務,並使用排序問題的中的評價指標 AP 來作為損失函數。由於其非連續和非凸,AP 損失函數不能直接通過梯度下降優化。為此,我們提出了一種新穎的優化算法,它將感知機學習中的誤差驅動更新方案和深度網絡中的反向傳播算法結合在一起。我們從理論上和經驗上驗證了提出的算法的良好收斂性。實驗結果表明,在不改變網絡架構的情況下,在各種數據集和現有最出色的一階目標檢測器上,AP 損失函數的性能相比不同類別的分類損失函數有著顯著提高。

10. Amodal Instance Segmentation through KINS Dataset

通過 KINS 數據集進行透視實例分割

万字长文详解腾讯优图 CVPR 2019 入选论文

透視實例分割是實例分割的一個新方向,旨在模仿人類的能力對每個對象實例進行分割包括其不可見被遮擋的部分。此任務需要推理對象的複雜結構。儘管重要且具有未來感,但由於難以正確且一致地標記不可見部分,這項任務缺乏大規模和詳細註釋的數據,這為探索視覺識別的前沿創造了巨大的障礙。在本文中,我們使用 8 個類別的更多實例像素級註釋來擴充 KITTI,我們稱之為 KITTI INStance 數據集(KINS)。我們提出了通過具有多分支編碼(MBC)的新多任務框架來推理不可見部分的網絡結構,該框架將各種識別級別的信息組合在一起。大量實驗表明,我們的 MBC 有效地同時改善透視和非透視分割。 KINS 數據集和我們提出的方法將公開發布。

11. Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training

基於多損失動態訓練策略的金字塔式行人重識別

万字长文详解腾讯优图 CVPR 2019 入选论文

大多數已提出的行人重識別方法高度依賴於精準的人體檢測以保證目標間的相互對齊。然而在複雜的實際場景中,現有模型尚難以保證檢測的精準性,不可避免地影響了行人重識別的性能。在本文中,我們提出了一種新的由粗及細的金字塔模型,以放寬對檢測框的精度限制,金字塔模型整合了局部、全局以及中間的過渡信息,能夠在不同尺度下進行有效匹配,即便是在目標對齊不佳情況下。此外,為了學習具有判別性的身份表徵,我們提出了一種動態訓練框架,以無縫地協調兩種損失函數並提取適當的信息。我們在三個數據庫上達到了最好的效果。值得一提的,在最具挑戰性的 CUHK03 數據集上超過當前最佳方法 9.5個百分點。

12. Dynamic Scene Deblurring with Parameter Selective Sharing and Nested Skip Connections

基於選擇性參數共享和嵌套跳躍連接的圖像去模糊算法

万字长文详解腾讯优图 CVPR 2019 入选论文

動態場景去模糊是一個具有挑戰的底層視覺問題因為每個像素的模糊是多因素共同導致,包括相機運動和物體運動。最近基於深度卷積網絡的方法在這個問題上取得了很大的提高。相對於參數獨立策略和參數共享策略,我們分析了網絡參數的策略並提出了一種選擇性參數共享的方案。在每個尺度的子網絡內,我們為非線性變換的模塊提出了一種嵌套跳躍連接的結構。此外,我們依照模糊數據生成的方法建立了一個更大的數據集並訓練出效果更佳的去模糊網絡。實驗表明我們的選擇性參數共享,嵌套跳躍鏈接,和新數據集都可以提高效果,並達到最佳的去模糊效果。

13. Learning Shape-Aware Embedding for Scene Text Detection

一種基於實例分割以及嵌入特徵的文本檢測方法

由於複雜多變的場景,自然場景下的任意形狀文本的檢測十分具有挑戰性,本文主要針對檢測任意形狀的文本提出瞭解決方案。具體地,我們將文本檢測視作一個實例分割問題並且提出了一個基於分割的框架,該框架使用相互獨立的連通域來表示不同的文本實例。為了區分不同文本實例,我們的方法將圖片像素映射至嵌入特徵空間當中,屬於同一文本實例的像素在嵌入特徵空間中會更加接近彼此,反之屬於不同文本實例的像素將會遠離彼此。除此之外,我們提出的 Shape-Aware 損失可以使得模型能夠自適應地去根據文本實例複雜多樣的長寬比以及實例間的狹小縫隙來調整訓練,同時加以我們提出的全新後處理算法,我們的方法能夠產生精準的預測。我們的實驗結果在三個具有挑戰性的數據集上(ICDAR15、 MSRA-TD500 以及 CTW1500)驗證了我們工作的有效性。

14. PointWeb: Enhancing Local Neighborhood Features for Point Cloud Processing

PointWeb: 通過局部近鄰特徵增強點雲處理

本文提出一種新的在局部近鄰點雲中提取上下文特徵的方法: PointWeb。與之前的方法不同,為了明確每個基於局部區域特性的點特徵,我們密集地連接在局部近鄰里的所有點,這樣可以更好地表徵該區域。我們提出了“自適應特徵調整”模塊(AFA),計算兩點之間的相互作用。對於每個局部區域,通過特徵差分圖計算點對之間對應每個元素影響程度的“影響圖”。根據自適應學習到的影響因子,每個特徵都會被相同區域內的其他特徵“推開”或“拉近”。調整過的特徵圖更好地編碼區域信息,類似點雲分割和分類的點雲識別任務,將從中受益。實驗結果表明我們的模型在語義分割和形狀分類數據集上,超出當前最優的算法。代碼和訓練好的模型將同論文一起發佈。

15. Associatively Segmenting Instances and Semantics in Point Clouds

聯合分割點雲中的實例和語義

一個 3D 點雲精細和直觀的描述了一個真實場景。但是迄今為止怎樣在這樣一個信息豐富的三維場景分割多樣化的元素,仍然很少得到討論。在本文中,我們首先引入一個簡單且靈活的框架來同時分割點雲中的實例和語義。進一步地,我們提出兩種方法讓兩個任務從彼此中受益,得到雙贏的性能提升。具體來說,我們通過學習富有語義感知的實例嵌入向量來使實例分割受益於語義分割。同時,將屬於同一個實例的點的語義特徵融合在一起,從而更準確地對每個點進行語義預測。我們的方法大幅超過目前最先進的 3D 實例分割方法,在 3D 語義分割上也有顯著提升。

代碼和模型已經開源:https://github.com/WXinlong/ASIS

16. Cyclic Guidance for Weakly Supervised Joint Detection and Segmentation

基於循環指導的弱監督聯合檢測和分割

万字长文详解腾讯优图 CVPR 2019 入选论文

本文由騰訊優圖實驗室與廈門大學紀榮嶸教授團隊主導完成。

我們首次提出使用多任務學習機制聯合弱監督檢測和分割任務,並基於兩個任務各自的互補失敗模式來改進對方。這種交叉任務的增強使得兩個任務更能逃離局部最小值。我們的方法 WS-JDS 有兩個分支並共享同一個骨幹模型,分別對應兩個任務。在學習過程中,我們提出循環指導範式和特地的損失函數來改進雙方。 實驗結果表明該算法取得了的性能提升。

17. ROI Pooled Correlation Filters for Visual Tracking

基於感興趣區域池化的相關濾波跟蹤研究

基於 ROI 的池化算法在樣本被提取的感興趣區域進行池化操作,並已經在目標檢測等領域取得了較大的成功。該池化算法可以較好的壓縮模型的尺寸,並且保留原有模型的定位精度,因此非常適合視覺跟蹤領域。儘管基於 ROI 的池化操作已經被不同領域證明了其有效性,其在相關濾波領域仍然沒有得到很好的應用。基於此,本文提出了新穎的具有 ROI 池化功能的相關濾波算法進行魯棒的目標跟蹤。通過嚴謹的數學推導,我們證明了相關濾波中的 ROI 池化可以通過在學習到的濾波器上引入附加的約束來等效實現,這樣就使得我們可以在不必明確提取出訓練樣本的情況下完成池化操作。我們提出了一個高效的相關濾波算法,並給出了基於傅立葉的目標函數求解算法。我們在 OTB-2013、 OTB-2015 及 VOT-2017 上對所提出的算法進行測試,大量的實驗結果證明了本文所提出算法的有效性。

18. Exploiting Kernel Sparsity and Entropy for Interpretable CNN Compression

基於卷積核稀疏性與密度熵的神經網絡壓縮方法

本文由騰訊優圖實驗室與廈門大學紀榮嶸教授團隊主導完成。

我們從神經網絡的解釋性角度出發,分析卷積神經網絡特徵圖的冗餘性問題,發現特徵圖的重要性取決於它的稀疏性和信息豐富度。但直接計算特徵圖的稀疏性與信息豐富度,需要巨大計算開銷。為克服此問題,我們建立了特徵圖和其對應二維卷積核之間的聯繫,通過卷積核的稀疏性和密度熵來表徵對應特徵圖的重要程度,並得到判定特徵圖重要性的得分函數。在此基礎上,我們採用較為細粒度壓縮的卷積核聚類代替傳統的剪枝方式壓縮模型。大量的實驗結果表明,我們所提出的基於卷積核稀疏性與密度熵的壓縮方法可以達到更高的壓縮率和精度。

19. MMFace: A Multi-Metric Regression Network for Unconstrained Face Reconstruction

MMFace: 用於無約束三維人臉重建的多度量回歸網絡

万字长文详解腾讯优图 CVPR 2019 入选论文

本文提出了一個用於進行無約束三維人臉重建的多度量回歸網絡。其核心思想是利用一個體素迴歸子網絡從輸入圖像生成一個人臉幾何結構的中間表達,再從該中間表達迴歸出對應的三維人臉形變模型參數。我們從包括人臉身份、表情、頭部姿態,以及體素等多個度量對迴歸結果進行了約束,使得我們的算法在誇張的表情,大頭部姿態、局部遮擋、複雜光照環境都有很好的魯棒性。相比於目前的主流算法,我們的方法在公開的三維人臉數據集 LS3D-W 和 Florence 上都得到了顯著的提升。此外,我們的方法還直接應用到對視頻序列的處理。

20. Towards Optimal Structured CNN Pruning via Generative Adversarial Learning

基於生成對抗學習的最優結構化卷積神經網絡剪枝方法

万字长文详解腾讯优图 CVPR 2019 入选论文

本文由騰訊優圖實驗室與廈門大學紀榮嶸教授團隊主導完成。

我們提出了一種基於生成對抗學習的最優結構化網絡剪枝方法,利用無監督端對端訓練剪枝網絡中冗餘的異質結構,有效解決了傳統結構化剪枝方法存在剪枝效率低、缺乏鬆弛性、強標籤依賴等問題。該方法對每個模型結構引入了軟掩碼,並對其加入稀疏限制,使其表徵每個結構的冗餘性。為了更好學習模型參數和掩碼,我們利用無類別標籤生成對抗學習框架,構建新的結構化剪枝目標函數,並利用快速的迭代閾值收縮算法解決該優化問題,穩定移除冗餘結構。通過大量的實驗結果表明,相比於目前最先進的結構化剪枝方法,我們所提出的剪枝方法可以獲得更好的性能。

21. Semantic Component Decomposition for Face Attribute Manipulation

万字长文详解腾讯优图 CVPR 2019 入选论文

最近,基於深度神經網絡的方法已被廣泛研究用於面部屬性編輯。然而,仍然存在兩個主要問題,即視覺質量不佳以及結果難以由用戶控制。這限制了現有方法的適用性,因為用戶可能對不同的面部屬性具有不同的編輯偏好。在本文中,我們通過提出一個基於語義組件的模型來解決這些問題。該模型將面部屬性分解為多個語義成分,每個語義成分對應於特定的面部區域。這不僅允許用戶基於他們的偏好來控制不同部分的編輯強度,而且還使得有效去除不想要的編輯效果。此外,每個語義組件由兩個基本元素組成,它們分別確定編輯效果和編輯區域。此屬性允許我們進行更細粒度的交互式控制。實驗表明,我們的模型不僅可以產生高質量的結果,還可以實現有效的用戶交互。

22. Memory-Attended Recurrent Network for Video Captioning

一種針對視頻描述的基於記憶機制的循環神經網絡

万字长文详解腾讯优图 CVPR 2019 入选论文

傳統的視頻描述生成的模型遵循編碼-解碼 (encoder-decoder) 的框架,對輸入的視頻先進行視頻編碼,然後解碼生成相應的視頻描述。這類方法的侷限在於僅能關注到當前正在處理的一段視頻。而在實際案例中,一個詞或者短語可以同時出現在不同但語義相似的視頻中,所以基於編碼-解碼的方法不能同時抓取一個詞在多個相關視頻中的上下文語義信息。為了解決這個侷限性,我們提出了一種基於記憶機制的循環神經網絡模型,設計了一種獨特的記憶結構來抓取每個詞庫中的詞與其所有相關視頻中的對應語義信息。因此,我們的模型可以對每個詞的語義有更全面和深入的理解,從而提高生成的視頻描述的質量。另外,我們設計的記憶結構能夠評估相鄰詞之間的連貫性。充足的實驗證明我們的模型比現有的其他模型生成的視頻描述質量更高。

23. Distilled Person Re-identification: Towards a More Scalable System

蒸餾的行人重識別:邁向更具可擴展性的系統

万字长文详解腾讯优图 CVPR 2019 入选论文

行人重識別(Re-ID),作為面向非交疊相機視角下的行人比對技術,在具備豐富標籤數據下有監督學習領域的研究已取得了長足的進步。 然而可擴展性問題仍然是系統走向大規模應用的瓶頸。我們從三個方面考慮 Re-ID 的可擴展性問題:(1)減少標籤規模來降低標註成本,(2)複用已有知識來降低遷移成本(3)使用輕量模型來降低預測成本。為解決這些問題,我們提出了一種多教師自適應的相似度蒸餾框架,僅需要少量有標註的目標域身份,即可將多種教師模型中的知識遷移到訂製的輕量級學生模型,而無需利用源域數據。為有效選擇教師模型,完成知識遷移,我們提出了 Log-Euclidean 的相似度蒸餾損失函數,並進一步整合了 Adaptive Knowledge Aggregator。 大量的實驗評估結果論證了方法的可擴展性,在性能上可與當前最好的無監督和半監督 Re-ID 方法相媲美。

24. DSFD: Dual Shot Face Detector

雙分支人臉檢測器

万字长文详解腾讯优图 CVPR 2019 入选论文

本文由南京理工大學計算機科學與工程學院 PCALab 與騰訊優圖實驗室合作完成。

近年來,卷積神經網絡在人臉檢測中取得了很大的成功。然而這些方法在處理人臉中多變的尺度,姿態,遮擋,表情,光照等問題時依然比較困難。本文提出了一種新的方法,分別處理了人臉檢測方向的三個關鍵點,包括更好的特徵學習,漸進式的損失函數設計以及基於錨點分配的數據擴充。首先,我們提出了一種特徵增強單元,以增強特徵能力的方式將單分支擴展到雙分支結構。其次,我們採用漸進式的錨點損失函數,通過給雙分支不同尺度的錨點集更有效地促進特徵學習。最後,我們使用了一種改進的錨點匹配方法,為迴歸器提供了更好的初始化數據。由於上述技術都與雙分支的設計相關,我們將本文方法命名為雙分支人臉檢測器。我們在兩個著名的人臉檢測數據集 WIDER FACE 和 FDDB 的 5 個評測維度上均刷新了當時的世界紀錄,取得了 Top1 的人臉檢測結果。

25. 3D Motion Decomposition for RGBD Future Dynamic Scene Synthesis

基於 3D 運動分解合成 RGBD 未來動態場景

視頻中未來時刻的幀,是由相機自身運動和場景中物體運動後的 3D 場景投影到 2D 形成的。因此,從根本上說,精確預測視頻未來的變化,需要理解場景的 3D 運動和幾何特性。在這篇文章中,我們提出了通過 3D 運動分解來實現的 RGBD 場景預測模型。我們首先預測相機運動和前景物體運動,它們共同用來生成 3D 未來場景,然後投影到 2D 相機平面來合成未來的運動、 RGB 圖像和深度圖。我們也可以把語義分割信息融入系統,以預測未來時刻的語義圖。我們在 KITTI 和 Driving 上的結果說明,我們的方法超過了當前最優的預測RGBD 未來場景的方法


分享到:


相關文章: