從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

阿德萊德大學助理教授吳琦回顧了他從跨領域圖像識別到 Vision-to-Language 相關的研究思路,如今正將研究領域延伸到與 Action 相關的工作。

大家好,我叫吳琦,目前在阿德萊德大學擔任講師(助理教授)。2014 年博士畢業之後,有幸加入澳大利亞阿德萊德大學(University of Adelaide)開始為期 3 年的博士後工作。由於博士期間主要研究內容是跨領域圖像識別,所以博士後期間,原本希望能夠繼續開展與跨領域相關方面的研究。但是,在與博士後期間的導師 Anton van den Hengel、沈春華教授討論之後,決定跳出基於圖像內部的跨領域研究,而展開圖像與其他外部領域的跨領域研究。恰逢 2015 年 CVPR 有數篇 image captioning 的工作,其中最有名的當屬 Andrej Karpathy 的 NeuralTak 和 Google 的 Show and Tell,同時 2015 年的 MS COCO Image Captioning Challenge 也得到了大量的關注。所以當時就決定開始研究與 Vision-to-Language 相關的跨領域問題。後來也在這個問題上越走越深,近三年在 CVPR,AAAI,IJCAI,TPAMI 等頂級會議與期刊上,先後發表了 15 篇與 vision-language 相關的論文,近期我們又將這個問題延伸到了與 Action 相關的領域,開啟了一個全新的方向。接下來我就介紹一下我的一些研究思路,工作,以及我對這個領域的一些想法。

1. Image Captioning with Attributes

我們 15 年第一個研究的問題是圍繞 image captioning 展開的,當時這個方向的主流模型是基於 CNN-RNN 框架的,即輸入一張圖像,先用一個 pre-trained 的 CNN 去提取圖像特徵,然後,將這些 CNN 特徵輸入到 RNN,也就是遞歸神經網絡當中去生成單詞序列。這種模型表面上看起來非常吸引人,依賴於強大的深度神經網絡,能夠用 end-to-end 的方式學習到一個從圖像到語言(vision2language)的直接對應關係,但忽略了一個重要的事實是,圖像和語言之間,其實是存在鴻溝的。雖然我們用神經網絡將圖像空間和語言空間 embed 在同一個空間當中,但直覺上告訴我,這兩個空間應該需要一個共同的 sub-space 作為橋樑來連接。於是我們想到了 attributes,一種圖像和語言都擁有的特徵。於是,基於上面提到的 CNN-RNN 結構,我們多加了一個 attributes prediction layer。當給定一張圖像,我們先去預測圖像當中的各種 attributes(我們的 attributes 定義是廣義的,包括物體名稱,屬性,動作,形容詞,副詞,情緒等等),然後再將這些 attributes 代替之前的 CNN 圖像特徵(如圖 1),輸入到 RNN 當中,生成語句。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 1:從圖像到詞語再到語句的 image captioning 模型

我們發現這個簡單的操作使我們的 image captioning 模型得到了大幅度的提升(見圖 2),並使得我們在 15 年 12 月的 MS COCO Image Captioning Challenge Leader Board 上在多項測評中排名第一(見圖 3)。論文後來也被 CVPR 2016 接收,見論文 [1]。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 2:Image captioning with predicted attributes

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 3: Our results (Q.Wu) on MS COCO Image Captioning Challenge Leader Board, Dec/2015

2. Visual Question Answering with Knowledge Base

看到 attributes 在 image captioning 上的作用之後,我們開始考慮,相同的思路是否可以擴展到更多的 vision-and-language 的問題上?畢竟, vision 和 language 之間的 gap 是客觀存在的,而 attributes 能夠有效地縮小這種 gap。於是我們嘗試將相同的框架運用在了 visual question answering(VQA)上(見圖 4),也取得了非常好的效果。相關結果已發表於 TPAMI,見論文 [2].

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 4:Adding intermediate attributes layer in VQA

然而,VQA 與其他 vision-to-language 不同的是,當它需要一個機器去回答一個關於圖片內容的問題的時候,機器不僅需要能夠理解圖像以及語言信息,還要能夠具有一定的常識,比如,如圖 5 左邊所示,問題是圖中有幾隻哺乳動物。那麼回答這個問題,我們不僅需要機器能夠「看」到圖中有狗,貓,鳥,還需要機器能夠「知道」狗和貓是哺乳動物,而鳥不是,從而「告訴」我們正確答案是 2.

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 5:Common-sense required questions

於是,我們就自然想到了將知識圖譜(knowledge-base)引入到 VQA 當中,幫助我們回答類似的問題。那麼該如何連接起圖像內容和 knowledge base 呢?我們的 attributes 這時候就又發揮了作用。我們先將圖像當中的 attributes 提取出來,然後用這些 attributes 去 query knowledge base(DBpedia),去找到相關的知識,然後再使用 Doc2Vec 將這些知識信息向量化,再與其他信息一起,輸入到 lstm 當中,去回答問題。我們的這個框架(見圖 6)在 VQA 數據集上取得非常好的表現,相關論文結果已發表於 CVPR 2016,見論文 [3].

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 6:VQA model with knowledge base

3. Visual Question Answering with Reasoning

雖然我們上面提出的框架解決了回答關於「common sense」的問題的挑戰,但是我們發現在 VQA 當中還有兩個重要的侷限:

  • CV doesn't help a lot

    -Only CNN features are used

    -CNN is simply trained on object classification

    -VQA requires multiple CV tasks

  • No reasons are given

    -Image + Question -> Answer mapping

    -Providing reasons is important, e.g. Medical service, Defense.

第一個侷限指的是, computer vision 其實在 VQA 當中的作用太小了,我們僅僅是使用 CNN 去對圖片當中的物體等內容進行理解。而一個基於圖片的問題,可能會問物體之間的關係,物體中的文字等等,而這其實是需要多種的計算機視覺算法來解決的。

第二個侷限指的是,在回答問題的過程當中,我們沒有辦法給出一個合理的解釋。而「可解釋性」恰恰是近幾年來大家都很關注的一個問題。如果我們在回答問題的過程當中,還能夠提供一個可理解的原因,將是非常有幫助的。

那麼基於上面這兩點,我們就提出了一種新的 VQA 結構,我們稱之為 VQA Machine。這個模型可以接收多個 computer vision 算法輸出的結果,包括 object detection,attributes prediction,relationship detection 等等,然後將這些信息進行融合,得出答案。同時,我們的 VQA Machine 除了輸出答案之外,還可以輸出原因。在這個模型中,我們首先將問題從三個 level 來 encode。在每個 level,問題的特徵與圖像還有 facts 再一起 jointly embed 在一個空間當中,通過一個 co-attention model。這裡的 facts 是一系列的,利用現有計算機視覺模型所提取出的圖像信息。最後,我們用一個 MLP 去預測答案,基於每一層的 co-attention model 的輸出。那麼回答問題的原因是通過對加權後的 facts 進行排序和 re-formulating 得到的(見圖 7)。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 7:VQA Machine Framework

我們的這個模型在 VQA 數據集上取得了 state-of-art 的表現(見表 1),更重要的是,它在回答問題的同時,能夠給出對應的解釋,這是其他的 VQA 模型所做不到的。圖 8 給出了一些我們模型產生的結果。論文已經發表在 CVPR 2017,見論文 [4].

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

表 1:Single model performance on the VQA-real test set

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 8:VQA Machine 結果,問題中帶顏色的詞表示 top-3 的權重。代表了這個詞在回答這個問題時的重要程度。圖像當中高亮的區域表示圖像當中 attention weights。顏色越深的區域說明這個區域對回答問題更重要。最後是我們模型生成的回答問題的原因。

4. Visual Question Answering with Explicit Reasoning on Knowledge Base

既然我們知道了 knowledge 和 reasoning 對 VQA 都很重要,那麼怎麼將它們兩個結合在一起,同時能夠進行 explicit reasoning(顯示推理)呢?所謂 explicit reasoning,就是在回答問題的過程當中,能夠給出一條可追溯的邏輯鏈。於是我們又提出了 Ahab,一種全新的能夠進行顯式推理的 VQA 模型。在這個模型當中,與以往直接把圖像加問題直接映射到答案不同,Ahab 首先會將問題和圖像映射到一個 KB query,也就是知識圖譜的請求,從而能夠接入到成千上萬的知識庫當中。另外,在我們的模型當中,答案是 traceable 的,也就是可以追蹤的,因為我們可以通過 query 在知識圖譜當中的搜索路徑得到一個顯式的邏輯鏈。

圖 9 展示了我們這一方法。我們的方法可以分成兩部分。

  • 首先在第一部分,我們會檢測到圖像當中的相關概念,然後將他們連接到一個知識圖譜當中,形成一個大的 graph,我們把這個過程稱為 RDF graph construction process。

  • 在第二步,一個自然語言式的問題會被首先處理成一個合適的 query,這個 query 會去請求上一步當中建立好的圖。這個 query 可能會需要到多步的推理過程,而這個 query 對應的 response 則會形成對應問題的答案。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 9:Our Ahab VQA model

最近我們又建立了一個新的 VQA 數據集叫做 fact-based VQA,就是基於事實的 VQA。我們之前的基於 explicit reasoning 的數據集只能接受固定的模板式的問題,而新的 FVQA 數據集提供了開放式的問題。除此之外,對每一對問題-答案,我們額外提供了一個 supporting fact。所以在回答問題的時候,我們不僅需要機器回答出這個問題,而且還需要它能夠提供關於這個回答的 supporting fact。圖 10 展示了我們 Ahab 和 FVQA 模型和數據的一些例子。相關數據與結果分別發表於 IJCAI 2017 和 TPAMI,見論文 [5,6]

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 10: Ahab and FVQA datasets and results

5. Visual Dialog with GAN

從 VQA 可以衍生出很多新的問題,Visual Dialog(視覺對話)就是其中一個。與 VQA 只有一輪問答不同的是,視覺對話需要機器能夠使用自然的,常用的語言和人類維持一個關於圖像的,有意義的對話。與 VQA 另外一個不同的地方在於,VQA 的回答普遍都很簡短,比如說答案是 yes/no, 數字或者一個名詞等等,都偏機器化。而我們希望 visual dialog 能夠儘量的生成偏人性化的數據。比如圖 11 所示,面對同樣的問題,偏人類的回答信息量更豐富,也更自然,同時能夠關注到已經發生的對話,並且引出接下來要發生的對話。而偏機器的回應,就非常的古板,基本沒法引出下面的對話。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 11:Human-like vs, Machine-like

於是我們提出了一個基於 GAN(生成對抗網絡) 的方法 (圖 12),來幫助模型生成更加符合人類預期的回答。我們左邊的生成網絡是使用了一個 co-attention,也就是一個聯合注意力模型,來聯合的使用圖像,對話歷史來生成新的對話,然後我們將生成的對話以及從生成模型中得出的 attention,一起,送入到一個區別模型當中,去區別對話為人工產生還是自動生成,然後通過 reward 的形式,去鼓勵模型生成更加符合人類的對話。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 12:Dialog Generation via GAN

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 13: Co-attention model

這項工作中,我們使用了一個 co-attention 的模型,來融合來自各個模態的信息,相同的模型也用在我們上面提到的 VQA-machine 當中。在一個 co-attention 模型當中,我們使用兩種特徵去 attend 另外一種特徵,從而進行有效地特徵選擇。這種 attend 模式會以 sequential 的形式,運行多次,直到每個輸入特徵,均被另外兩個特徵 attend 過。該論文 [7] 被 CVPR2018 接受,大會 oral。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 14:Visual Dialog 結果對比

6. 從 Vision-Language 到 Action

前面簡單介紹了一些我們在 vision-language 方向上的工作,可以看到,兩者的結合無論在技術上還是應用上,都非常的有意義。然而,對於人工智能(AI)而言,這只是一小步。真正的人工智能,除了能夠學習理解多種模態的信息,還應該能與真實環境進行一定程度的交互,可以通過語言,也可以通過動作,從而能夠改變環境,幫助人類解決實際問題。那麼從今年開始,我們開始將 action 也加入進來,進行相關的研究。

我為此提出了一個 V3A 的概念,就是 Vision,Ask,Answer and Act(如圖 15),在這個新的體系當中,我們以視覺(Vision)作為中心,希望能夠展開提問(Ask),回答(Answer),行動(Act)等操作。這樣,我們不僅能夠得到一個可訓練的閉環,還將很多之前的 vision-language 的任務也融合了進來。比如在 Ask 這一端,我們可以有 Visual Question Generation,image captioning 這樣的任務,因為他們都是從圖像到語言的生成。在 Answer 這一端,我們可以有 VQA,Visual Dialog 這樣需要機器能夠產生答案的模型。在 Act 端,我們也有會有一些很有意思的任務,比如 referring expression 和 visual navigation。那麼我們在今年的 CVPR2018 上,在這兩個方面,都有相關的工作。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 15:V3A 框架

首先談一下 referring expression,也叫做 visual grounding,它需要機器在接受一張圖片和一個 query(指令)之後,「指」出圖片當中與這個 query 所相關的物體。為了解決這個問題,我們提出了一個統一的框架,ParalleL AttentioN(PLAN)網絡,用於從可變長度的自然描述中發現圖像中的對象。自然描述可以從短語到對話。PLAN 網絡有兩個注意力機制,將部分語言表達與全局可視內容以及候選目標直接相關聯。此外,注意力機制也是重複迭代的,這使得推理過程變的可視化和可解釋。來自兩個注意力的信息被合併在一起以推理被引用的對象。這兩種注意機制可以並行進行訓練,我們發現這種組合系統在不同長度語言輸入的幾個標準數據集上的性能優於現有技術,比如 RefCOCO,RefCOCO +和 GuessWhat 數據集。論文見 [8]。我們還提出了一個基於 co-attention 的模型,論文見 [9]。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 16:ParalleL AttentioN(PLAN)Network

接下來再給大家介紹一篇我們關於 Visual Navigation 的文章 [10],該論文也被 CVPR2018 接受,由於 topic 比較新穎,也被大家關注。這篇文章叫「Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments」。我們這篇文章想要解決的一個問題就是如何使用一段複雜的人類語言命令,去指導機器人在模擬的真實環境當中,去完成對應的動作和任務。

那麼在這篇文章當中,我們首先提出了一個 Matterport3D Simulator。這個 simulator 是一個大規模的可基於強化學習的可交互式環境。在這個 simulator 的環境當中,我們使用了 10800 張 densely-sampled 360 度全景加深度圖片,也就是說可以提供到點雲級別。然後我們總共有 90 個真實世界的室內場景。那麼與之前一些虛擬環境的 simulator 而言,我們和這個新的 simulator 更具有挑戰性,同時更接近於實際。圖 17 展示了我們的一個真實場景以及機器人(agent)可移動的路線。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 17:Example navigation graph for a partial floor of one building-scale scene in the Matterport3D Simulator. Navigable paths between panoramic viewpoints are illustrated in blue. Stairs can also be navigated to move between floors.

基於我們的 Matterport3D Simulator,我們又收集了一個 Room-to-Room (R2R) 的數據集,在這個數據集當中,我們收集了 21567 條 navigation instruction(導航指令),平均長度為 29 個單詞。每一條指令都描述了一條跨越多個房間的指令。如圖 18 所示。圖 19 顯示了我們導航指令的用詞分佈。

那麼除了上述 simulator 和數據,我們這篇文章還提出了一個 sequence-to-sequence 的模型,改模型與 VQA 模型非常類似,只是將輸出動作作為了一種 sequence,用 LSTM 來預測。我們還加入了諸如 teacher-forcing,student-forcing 等變種,取得了更好的效果。我們接下來會繼續擴充數據,並保留測試集,提供公平的測試平臺,每年舉行相關的比賽。請大家關注!

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 18:Room-to-Room (R2R) navigation task. We focus on executing natural language navigation instructions in previously unseen real-world buildings. The agent's camera can be rotated freely. Blue discs indicate nearby (discretized) navigation options

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 19:Distribution of navigation instructions based on their first four words. Instructions are read from the center outwards. Arc lengths are proportional to the number of instructions containing each word. White areas represent words with individual contributions too small to show.

7. 總結與未來

人工智能是一個非常複雜的整體的系統,涉及到視覺,語言,推理,學習,動作等等方面,那麼計算機視覺作為人工智能領域內的一個方向,除了關注經典的純視覺的問題(比如圖像識別,物體分類等),也應該關注如何與其他領域相結合來實現更高難度的任務與挑戰。視覺與語言(vision-language)的結合就是一個非常好的方向,不僅引出了像 image captioning 和 VQA 這種有意思的問題,還提出了很多技術方面的挑戰,比如如何融合多領域多維度的信息。我們進一步將 vision-language 引入到了 action 的領域,希望機器能夠具有問(Ask),答(Answer)和作(Act)的能力,實質上就是希望機器能夠理解和處理視覺信息,語言信息,並輸出對應的動作信息,以完成更高程度的跨域信息融合。

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

圖 20:Further plans

接下來我們將繼續在 vision-language-action 的方向上做更多的探索,目前的 room-to-room navigation 數據集只是第一步,我們接下來將基於我們的 Matterport3D Simulator, 進一步提出 Visible Object Localization,Hidden Object Localization 和 Ask-to-find 的任務(如圖 20),希望 agent 能夠通過基於語言的指令,在場景中導航定位到可見(Visible)的物體,隱藏(Hidden)的物體,以及當指令存在歧義時,能夠提出問題,消除歧義,從而進一步完成任務。

參考文獻

[1] Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick. What Value Do Explicit High Level Concepts Have in Vision to Language Problems?. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, Nevada, US, Jun, 2016.

[2] Qi Wu, Chunhua Shen, Peng Wang, Anthony Dick, Anton van den Hengel, Image Captioning and Visual Question Answering Based on Attributes and Their Related External Knowledge. IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI), Volume:40 Issue:6. 2018.

[3] Qi Wu, Peng Wang, Chunhua Shen, Anton van den Hengel, Anthony Dick. Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, Nevada, US, Jun, 2016.

[4] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel. The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'17), Honolulu, Hawaii, US, Jul, 2017.

[5] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel, Anthony Dick. Explicit Knowledge-based Reasoning for Visual Question Answering. International Joint Conference on Artificial Intelligence (IJCAI'17), Melbourne, Australia, Aug, 2017.

[6] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel, Anthony Dick. FVQA: Fact-based Visual Question Answering. IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI), In Press, 2018.

[7] Qi Wu, Peng Wang, Chunhua Shen, Ian Reid, Anton van den Hengel. Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018. (Accepted 19/2/18). [Oral]

[8] Bohan Zhuang*, Qi Wu*, Chunhua Shen, Ian Reid, Anton van den Hengel. Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[9] Chaorui Deng*, Qi Wu*, Fuyuan Hu, Fan Lv, Mingkui Tan, Qingyao Wu. Visual Grounding via Accumulated Attention. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[10] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Snderhauf, Ian Reid, Stephen Gould, Anton van den Hengel. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[11] Qi Wu, Damien Teney, Peng Wang, Chunhua Shen, Anthony Dick, Anton van den Hengel. Visual question answering: A survey of methods and datasets. Computer Vision and Image Understanding (CVIU), v. 163, p. 21-40, 2017.

[12] Damien Teney, Qi Wu, Anton van den Hengel. Visual Question Answering: A Tutorial. IEEE Signal Processing Magazine, v. 34, n. 6, p. 63-75, 2017

[13] Yan Huang, Qi Wu, Liang Wang. Learning Semantic Concepts and Order for Image and Sentence Matching. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[14] Chao Ma, Chunhua Shen, Anthony Dick, Qi Wu, Peng Wang, Anton van den Hengel, Ian Reid. Visual Question Answering with Memory-Augmented Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[15] Bohan Zhuang*, Qi Wu*, Ian Reid, Chunhua Shen, Anton van den Hengel. HCVRD: a benchmark for largescale Human-Centered Visual Relationship Detection. AAAI Conference on Artificial Intelligence (AAAI'18), New Orleans, Louisiana, US, Feb, 2018. [Oral]

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

吳琦現任澳大利亞阿德萊德大學(University of Adelaide)講師(助理教授),澳大利亞機器視覺研究中心(Australia Centre for Robotic Vision)任 Associate Investigator(課題副組長)。在加入阿德萊德大學之前,擔任澳大利亞視覺科技中心(Australia Centre for Visual Technologies)博士後研究員。分別於 2015 年,2011 年於英國巴斯大學(University of Bath)取得博士學位和碩士學位。他的主要研究方向包括計算機視覺,機器學習等,目前主要研究基於 vision-language 的相關課題,包括 image captioning,visual question answering,visual dialog 等。目前已在 CVPR,ICCV,ECCV,IJCAI,AAAI,TPAMI,TMM 等會議與刊物上發表論文數十篇。擔任 CVPR,ECCV,TPAMI,IJCV,TIP,TNN,TMM 等會議期刊審稿人。

對了,我們招人了,瞭解一下?

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

BAT資深算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer,學完即推薦就業

┏(^0^)┛歡迎分享,明天見!


分享到:


相關文章: