有了華為和它的開發者，以後去網店砍價，良心再不會痛了科技頭條網

有了華為和它的開發者，以後去網店砍價，良心再不會痛了

2020-03-29 08:11:24 IT創事記

“親，歡迎再次光臨小店哦！”當屏幕上閃現出這行熟悉的文字，意味著你辛勞的網淘工作終於告一段落，該洗洗睡了。

“店家也很辛苦……”你想起自己各種刁鑽的提問、無厘頭的質疑，以及“喪心病狂”的砍價，良心隱隱作痛。

不過很快，你就不會痛了。因為你知道，被你折磨的對象可能是一個機器人。

沒錯，當我們愉快地網購時，科學家們正在人工智能這條路上越走越遠。未來的機器客服不會是你今天看到的那種呆萌態，而是“多模態”。

田奇教授是華為諾亞方舟實驗室計算視覺首席科學家、IEEE Fellow（國際電氣與電子工程師協會會士）。他最新的關於多模態學習的工作成果，是在ACM多媒體會議2019上獲得了一個最佳論文提名。

IEEE Fellow身份與論文提名都是全球科學家“含金量”極高的榮譽。

華為諾亞方舟實驗室計算視覺首席科學家、IEEE Fellow 田奇教授

這篇論文涉及的場景是如服裝、手機、手錶等電子商務場景下的多模態人機對話系統。所謂多模態，可以簡單理解為多種交流模態的融合，例如在和網店客服交流中輸入一段文字，再發送一張圖片來描述需求，就用到了兩種交流模態。

當你開啟漢語八級模式，說“我不是這個意思，我的意思是你稍微意思意思就可以”這句話時，機器客服真的會明白，你並不是對那雙手套的顏色有什麼意見，而只是窮而已。

它會通過多模態信息、上下文，以及用戶數據（例如性別等）來建立多模態查詢、搜索數據庫並返回結果。

“從實驗結果上看，我們提出的多模態對話系統——魔術模型——在圖像選擇和文本生成上都取得了很好的結果。”田奇教授在3月28日華為開發者大會2020(Cloud)上對開發者們說。

目前在華為雲，這樣的開發者在全球有160萬。2019年，華為在發佈沃土計劃2.0時說，要在5年內讓這個數字達到500萬。

田奇教授在會議中介紹他關於數據生成的研究方向，就是希望讓全球的AI開發者能和他，以及今天160萬、或未來的500萬開發者們一起工作。

他在演講當天主持發佈了華為的計算視覺研究計劃（以下簡稱視覺計劃），並邀請全球AI專家參與研究。

他表示，基於華為昇騰AI處理器的Atlas人工智能計算平臺將為該計劃提供算力支撐，研究成果將在華為全場景AI計算框架MindSpore實現並開源給業界，讓全球AI開發者可以以此為基礎持續創新。

“我們認為，多模態學習將會是未來計算視覺的主流模式。”田奇說。

沒錯，聰明的客服只是“魔術模型”的一次有益嘗試。目前在中國市場，多模態學習的主要熱門應用領域有智能駕駛和智能多媒體。

例如在自動駕駛中，會涉及圖像雷達、激光雷達和GPS等多種模態的信號，由於這些多模態信號天然的互補性，它們在性能上表現出了比單一模態信號更優的魯棒性。

多模態學習只是田奇教授研究領域的鱗爪。今天，計算視覺面臨有三大挑戰——如何從數據中挖掘有效信息，怎樣設計高效的視覺識別模型，以及如何表達並存儲知識等。

圍繞這些挑戰，華為的計算視覺基礎研究也覆蓋了數據、模型和知識三大領域。

在如何從海量數據中挖掘有效信息——即“數據”這一課題下，田奇教授關注有兩個典型的應用場景，包括如何利用生成數據訓練模型，以及如何對齊不同模態的數據。

在計算視覺研究領域，數據本身的採集和標註是非常昂貴的。即便一個單視覺任務，它的數據標註量就可能達到成百上千萬。無論業界還是華為，數據成本都是痛點。這也是田奇教授認為，數據生成是解決標註瓶頸的關鍵技術方向的原因。

華為目前在數據生成技術上的關注領域大致分為三個部分，一是自動數據擴增，二是利用生成式對抗網絡（GAN, Generative Adversarial Networks）模擬更多數據，三是利用計算機圖形學技術生成虛擬數據等。這些技術研究主要應用在今天火熱的智慧城市和智能駕駛領域。

之前提到的那位客服和它背後的“多模態學習”，就是數據生成技術上最新的一項研究工作。

田奇教授還和開發者分享了華為目前在“模型和知識”這兩大方向上的熱點話題。例如怎樣設計高效的視覺識別模型，如何設計神經網絡模型，如何加速神經網絡計算等話題。更詳細的內容闡述，感興趣的程序員們可以去官網上回看。

田奇教授表示：“華為在計算視覺領域圍繞數據、知識和模型三大方向，大力投入基礎研究，過去兩年已在AI頂會CVPR、ICCV、NeurIPS、ICLR等發表80餘篇論文，並取得多項業界領先的成果，這些研究成果已通過學術論文和算法代碼開源等形式公開給業界，我們歡迎全球AI開發者基於華為已有的研究成果，進一步開展AI的研究、開發和部署。”

他今天發佈的華為視覺計劃圍繞三大方向，共有六大子計劃，詳細內容如下，開發者們可以去華為的官網瞭解詳情：