零的突破！四川這位本科生在國際頂級會議發表科研成果！教育頭條網

日前，2020 IEEE國際計算機視覺與模式識別會議（IEEE Conference on Computer Vision and Pattern Recognition，簡稱CVPR）官方公佈論文收錄結果。

電子科技大學信息與通信工程學院本科2016級學生王譚在新加坡南洋理工大學Prof. Hanwang Zhang指導和阿里巴巴達摩院的資助下，以第一作者撰寫的論文"Visual Commonsense R-CNN"（視覺常識R-CNN）被CVPR2020接收。這是學校第一位以第一作者在CVPR上發文的本科生。

王譚在校期間先後榮獲國家獎學金、唐立新獎學金。加權平均分92.8，GPA3.99，前兩年專業排名綜合排名均位列1/450，所修67門課程中有62門90分以上，並獲得"四川省優畢業生"稱號。於2019年7月前往新加坡南洋理工大學實習。2019年11月，以第一作者撰寫的論文"Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking"（基於多模態張量融合和重排序的圖像文本檢索）被第27屆國際多媒體會議（The 27th ACM International Conference on Multimedia）接收為Oral（大會演講）論文。2020年1月他以共同第一作者完成的論文"Cross-Modal Attention with Semantic Consistence for Image-Text Matching"被人工智能1區期刊TNNLS（IEEE Transactions on Neural Networks and Learning Systems）接收。

CVPR作為計算機視覺領域的三大世界頂級會議之一，本屆投稿ID破萬，最終收到來自世界各地的有效投稿6656篇，接收1470篇，錄取率為22%，為近十年來最低，最終會議定於6月16-19日在美國華盛頓召開。

王譚的論文Visual Commonsense R-CNN針對現有的Vision & Language任務所用Up-Down特徵存在的bias較大、缺少構建物體與物體之間關係等問題，從因果推斷（Causal Inference）的角度出發，利用Judea Pearl等人在2009年提出的"Do"算子和後門調整算法，結合現有的目標檢測框架對現實場景中的物體進行干預（Intervention）。其本質可以簡單的理解為"

Borrow & Put"。

其研究和傳統的貝葉斯條件概率對比，通過構建一個字典來把廣泛存在於其他圖片中的物體"borrow"到當前圖片中。然後把借來的物體"put"到X、Y周圍和X、Y對比，例如上圖中的把 sink、handbag、chair等等移到toilet和person周圍，然後通過後門調整公式計算干預後的值。最後通過一種自監督學習的方式學習到圖片局部物體的更好的表徵——我們稱之為視覺常識特徵。

他在論文中三個最主要的Vision & Language下游任務中對學習到的特徵進行驗證，都取得了目前最好結果。其中圖片描述任務（Image Captioning）更是在Cider上比原先增長了近2個百分點。（提取框架圖如下）

因果理論是近一年來開始被計算機視覺學術界關注的全新方向和思路。這項研究除了是因果理論在計算機視覺學術界的推廣，同時也和當下被廣泛關注的自監督學習聯繫非常緊密。通過自監督學習可以有效地挖掘數據集中的特徵信息，為廣泛的計算機視覺下游任務提供便利，但是自監督學習缺乏直接的評價指標，需要耗費大量的實驗和時間來驗證算法的有效性。

王譚希望花費了大量精力完成的這項成果能給學術界帶來價值。

歡迎關注"電子科大本科招生"頭條號，獲取關於985、211、"雙一流"建設A類高校——電子科技大學的最新精彩資訊！"

分享到:

閱讀更多 電子科大本科招生 的文章

關鍵字: 南洋理工大學新加坡科研成果