「馬雲爸爸」成立快一年的達摩院,究竟在做什麼?

去年10月份,“馬雲爸爸”做了一件非常驚人的事——成立阿里巴巴達摩院。

阿里之下的達摩院,來源於武俠小說,作為武學最高研究機構,達摩院代表了修為的最高境界。同樣,科研也代表了精進、執著和專注的精神。

達摩院成立的前一天,有一張圖火了——就是一張馬雲和多位科學家的合影在科技圈兒刷了屏。包括馬雲C位在內,一共有14名成員,普通人可能不太熟悉其中大部分的人,但他們大多數是技術領域的頂級大牛,他們將為阿里的“達摩院”出謀劃策,出於一些業務上的考量,他們更像是顧問。

“马云爸爸”成立快一年的达摩院,究竟在做什么?

作為一個“活得至少要比阿里巴巴長”的技術機構,馬雲宣佈三年內,要在技術研發上投入超過1000億,初期招攬100名頂級科學家和研究人員,研究自然語言處理、人機自然交互、量子計算、機器學習、基礎算法、芯片技術、傳感器技術、嵌入式系統等等前沿科學領域。總之,你能想到的那些前沿技術領域,全部包括在達摩院的範疇之內。

馬雲對達摩院發展提出的三個要求,“活得要比阿里巴巴長”、“服務全世界至少20億人口”、“必須面向未來、用科技解決未來的問題”。

過去一年,達摩院並沒有出來公開講過太多話。今年4月,阿里達摩院宣佈了自主研發AI芯片——Ali-NPU,按照阿里說法,該芯片的性能將是目前同類產品的40倍。今年5月,達摩院量子實驗室宣佈,研製出世界最強的量子電路模擬器“太章”,並在全球率先成功模擬了81比特40層的作為基準的谷歌隨機量子電路,挑戰“量子霸權”。除此之外,基本都是在算法和測評比賽上獲得一些獎項。

成立9個月以來,阿里的技術核心達摩院仍然非常神秘,這個機構有多少業務部門單元,有多少人,他們在做什麼事兒,如何運用到阿里巴巴的體系當中去?

7月6日,阿里巴巴在杭州舉辦了一次“媒體小課堂”——這也是既達摩院成立了快一年後,第一次做媒體溝通。這不同於一些傳統的發佈會和溝通會,這更類似於一個媒體公開課的形式,主要由幾名具體技術業務部門的發言人闡述一些技術背景、應用場景以及達摩院對於未來技術的判斷。

阿里巴巴方面並沒有直接透露達摩院體系之下的人員數量,但多數成員來自於此前的iDST。在媒體小課堂上, 四位主講人分別是來自達摩院機器智能實驗室(視覺組)負責圖像識別的資深算法專家謝宣松、量子實驗室的量子科學家徐華、機器智能技術實驗室負責機器翻譯的研究員葛妮瑜以及機器智能技術實驗室負責語音識別的高級算法專家雷鳴。旗下有幾個實驗室我們並不得知,而據阿里巴巴提供的最新的消息,阿里巴巴體系下已經有擁有25000名技術研發工程師。

據阿里介紹,在阿里巴巴,達摩院並不是一個純研究部門,它和業務和商業緊密相連,既有學術思維,也有產品思維和商業邏輯。達摩院機器智能實驗室高級算法專家雷鳴在加入達摩院之前在微軟任職語音科學家,他認為“在微軟更像是純學術研究,而在阿里巴巴會讓自己有一些商業的考量。”

達摩院機器智能技術實驗室智能語音交互的首席科學家鄢志傑曾經也提到——他在阿里的實驗室有三類人。一是算法研究,二是做算法落地,三是推動產品化的工程技術人員。這三類人結合到一個組織下,能讓算法的研究成果迅速被產品化。

千貨千面,機器自動生成促銷圖

今天的人工智能代表有很多——打敗世界冠軍的AlphaGo,基於用戶興趣的商品推薦,支付寶的刷臉支付、交通網絡上的車牌識別,菜鳥網絡的智能調度等等。有很多是基於視覺智能的。

達摩院的視覺智能是圍繞幾個方面的——圍繞“人”,比如基於人的醫療視覺;圍繞“物”,識別工業上的一些設計的技術問題、流水線上的包裹,甚至高鐵都可以稱作“物”;還有圍繞“空間”,像城市大腦,是研究城市空間怎麼運作的,包括技術在交通、安全上的識別。

而最新的技術是在“設計”領域,比如視覺生成。

視覺生成可以這樣理解——以往很多視覺的AI技術,都是集中在人臉識別、支付,或者對於視覺中內容的理解等等,基本上可以認為是識別、檢測、分割的技術內容更多,而生成、決策的內容更少。

而類比人的智能生成的過程——從小學初中大學碩士博士,逐漸認識和理解這個世界,而最後工作提出研究、產生的價值則是個人決策的概念。對於視覺智能來說,同樣基礎在於理解,目的在於生成。

目前分成三塊內容。一個是對圖像的生成;一個是對視頻的編輯和生成;還有對圖形的生成。

對於阿里來說,最典型的應用是淘寶正在使用魯班系統。謝宣松提到,“我們在‘雙11’,或者在手淘、天貓,上面有大量banner圖片。其中很大部分是由系統自動生成。比如說光‘雙11’會產生數億張圖,累計起來更多。目前通過魯班服務各種電商場景,後面通過阿里雲服務各種需求。”

“马云爸爸”成立快一年的达摩院,究竟在做什么?

淘寶中很多圖片是機器自動生成的,並非是認為PS的。而在智能生成的領域,還支持廣告短視頻自動生成。

除去在“設計”領域的運用之外,阿里巴巴還推出了城市大腦,針對城市交通路網的識別,還有行業大腦對於特定領域的垂直應用。針對“物”,主要應用在流水線物體的檢測領域,“ 比如鐵路有螺母鬆動,或者某個電池片,太陽晶硅這種發生了裂紋,還有芯片溢膠不正常等等,這些診斷內容從視覺上能看得到,而不用人再去反覆檢查。”

針對“人”,更多的是應用在醫療領域,針對X光的膝關節檢測甚至是肺結核檢測,但挑戰在於,醫療行業的數據大部分都是異構的,達摩院視覺智能的目的是建立數字化人體基準影像庫。

極限計算和量子霸權

阿里巴巴一位內部人士提到,達摩院的研究分為短、中、長的研究時長,人工智能既有短期也有中期,也有長期的研究方向。量子計算就算是中長期的研究方向。

對於量子計算來說,達摩院的量子計算實驗室曝光不多。前者視覺智能偏向於應用層面,視覺智能如何在阿里巴巴落地等等,而量子計算則只能從概念和狀態說起……

量子最早來源於拉丁的Quantus,它的是一個概念,而非物質。本身並不是任何物質,而是表示在1900年德國一個物理學家普朗克黑體輻射,提出了量子概念。一個物理量如果存在最小的不可分割的基本單位,則這個物理量是量子化的,並且把最小單位稱為量子,這是量子的基本概念。它是一個概念,而不是一個物質。

什麼是量子計算?在知乎上引述@Summer Clover所提到的院士的答案…..比較通俗易懂。

量子比特可以製備兩個邏輯態0和1的相干疊加態,換句話講,它可以同時存儲0和1。一個N個物理比特的存儲器,若它是經典存儲器,則它只能存儲2^N個可能數據當中的某一個;若它是量子存儲器,則它可同時存儲2^N個數據。而且隨著N的增加,其存儲信息的能力將呈指數級上升。由於數據操作可以同時對存儲器的數據進行,而量子計算在實施一次運算的過程中,則是同時對2^N個輸入數進行測算,其效果就相當於經典計算機採用2^N個不同處理器進行並行操作。

量子計算機的方式,可以解決經典計算機發展瓶頸的問題。量子算法在算法上加速,可以做量子系統模擬,量子機器學習。“一般一個領域有一兩個應用就可以幹了,這三個都有很強的應用,這可以說是量子計算發展核心的驅動力,驅動大家在這個領域投入,去做這方面。”

量子計算在加速上有很大應用,量子計算機對於模擬原子、分子等遵循量子力學基本原理的系統,加速性能明顯。“關於藥物研發、材料性質研發,都需要這方面的模擬。經典計算機沒有比較好的做,這是量子計算邏輯非常重要的應用。”

“马云爸爸”成立快一年的达摩院,究竟在做什么?

量子霸權,則是對於某個特定的問題量子計算機可以解決,但是經典計算機無法解決。2016年Google團隊在理論上提出,49個物理量子比特可以在隨機量子電路的輸出採樣,這個特殊問題上實現量子霸權。2017年10月,IBM在超算上實現了56量子比特的模擬。

Google今年3月提出72個量子比特的芯片方案。阿里巴巴則公佈了81個量子比特的模擬,宣佈打破了Google宣稱的量子霸權壟斷。不過量子霸權,從提出霸權到打破,“更多是象徵意義大於實際意義,因為本身解決不是通路計算問題,主要是特性問題解決,認為是技術發展過程當中一個個里程碑。”

量子計算在阿里巴巴內部有什麼落地?

此前,阿里巴巴成立了量子計算實驗室,主要是想通過顛覆性的量子計算能力,為客戶提供基於量子計算的解決方案。據稱,目前已經有“小有規模”的團隊,是一個跨學科的國際化團隊,希望是解決量子計算方面全棧問題。阿里巴巴目前沒有透露進一步的詳細信息。

阿里巴巴目前的介紹也比較偏向於底層,物理實現層。而在其上面還有一些系統軟件層,有算法層,應用層,每個層上都有很多問題。

徐華提到,量子計算的普及還不太好預言,但有幾個領域會比較受關注:

  • 一,量子體系的模擬。通過經典計算機進行量子系統模擬,結合量子計算機本身,一起對量子體系模擬。阿里巴巴目前已經有一些項目在測試了,現在不方便透露。

  • 二,阿里巴巴集團在人工智能優化領域有很多佈局,業務層面有很多應用。量子計算對於人工智能有很強的加速作用,近期我們可能會開始一些項目的調研和啟動。

徐華認為,“當前業界仍是這樣的狀態——量子計算非常困難,被定義為極限計算。利用的是各種極端條件下,極限的物理條件來實現。”

針對非標準漢語語法結構的鬥爭

對於機器翻譯來說,阿里巴巴擁有眾多類似於跨境貿易的場景。

在淘寶上,常見的場景是一面則是天貓上一件嬰兒衣服,配有中文、圖像,另外一面則是大洋彼岸阿里巴巴國際網站上同樣的產品,用英文展現的。阿里巴巴產品數量的特性決定了,在阿里巴巴,眾多商品頁面、上億個產品,不可能使用人工翻譯。

機器翻譯有60年的歷史,它的可用性在最近30年才達到如今的程度,而在這30年的前25年都是在做統計機器翻譯。

統計機器翻譯,即通過大量雙語語料建立一個統計模型。比如你看到“中國”這個字,英文翻譯就是China,對於機器來說,“中國”這個詞因為語料庫的原因它大體是“China”,但“中國”這個詞不僅是China,也可以是Chinese,甚至直接分解拆譯成“中-國”也是有可能的。一箇中文詞有很多英語翻譯,統計機器翻譯出發點就是用大量雙語語料自動學習翻譯的辭典。

它的優點,尤其是源語言和目標語言比較相像的翻譯過程中,比如英語、西班牙語、法語,效果就非常好。

而最近五年比較火的是神經網絡機器翻譯。直接說在效果上,它是看整個一個句子,不是看一個字,效果會比較好。所以在語句通順度上會更好,英文它結合了一定上下文的意思來翻譯。而唯一的問題是,神經網絡機器翻譯是一個黑盒子,如果這句話翻譯錯了,並不能實行人工干預,只能通過繼續餵養一定的數據。

在神經網絡機器翻譯領域,Google算是元老了——不管是新聞、對話、幽默、電視劇,都是一個模型翻。微軟,也差不多類似;而Facebook也用這種方法來翻譯社交網絡。Amazon不太一樣,使用通用機器翻譯模型。

談到機器翻譯在阿里巴巴的應用,則是不同場景下,建立不同模型。在傳統統計機器翻譯和神經網絡機器翻譯下,阿里巴巴開發了一套RBMT規則式機器翻譯,採用三種方式翻譯,原因在於淘寶需要對抗非標準漢語語法結構。

“马云爸爸”成立快一年的达摩院,究竟在做什么?

在一張非常傳統的淘寶商品頁面,常見的標題可能是“碎花裙子女士明星最愛當季流行楊冪同款”,而用戶評論則是正常通順的語言。

在這樣的翻譯需求裡,數字、日期、地址,專有名詞是比較固定的詞語,會使用規則翻譯。而描述性的、用戶評論,則會採取神經翻譯的系統。而對於國外用戶搜索來說,他們不會去搜索這麼冗長的標題,則還需要機器對於標題的內容進行理解總結,對商家冗長的標題進行優化,進行改寫。另外阿里巴巴目前已經在結合淘寶圖片內容對翻譯結果進行合成,標題中的“鏡”至少可以翻譯成“mirror”、“lens”或“glasses”,但通常情況下,一張產品圖就能解釋一切。

阿里巴巴不止一次提到,全球化是阿里集團未來20年三大核心戰略之一。而讓天下沒有難做的生意,就演變成要讓大家在語言溝通上零障礙。

阿里巴巴提供的數據顯示。以阿里巴巴國際站為例,七成買家以英語溝通,剩下30%為西班牙語、俄語、土耳其語等小語種,大約96%的賣家對小語種無能為力。

目前,阿里巴巴已經在做21種語言,48個語言方向,每一天要調動阿里巴巴機器翻譯服務7.5億次,每年翻譯120萬億個詞,不光印歐語系,還包括要翻譯很多小語種語言。葛妮瑜表示,每一個方向都是很精細的做,從來不用搭橋的方式做。

阿里巴巴目前有眾多使用到機器翻譯的場景,每個場景的需求都需要被細緻打磨——天貓出海,速賣通,支付寶,優酷視頻字幕,以後電視劇機器都會自動翻譯。目前菜鳥物流通關、阿里雲國際社區、飛豬旅行翻譯助手、釘釘社交口語翻譯已經上線。

語音識別,IoT時代的基礎技術

相較於前三個技術領域,最後介紹的語音技術可能離我們更近一些。

目前,Google已經推出了基於語音識別的智能音箱,偏智能語言識別和對話,微軟小冰也上線了幾年,也是通用語音識別,Amazon Echo也採用了語音識別技術,國內百度也有通用語音識別+輸入法語音。

語音技術歸納起來可以從人聽到到說話的過程理解。ASR語音識別,是識別聽到的字和詞;NLP自然語言是理解聽到的話的含義;TTS則是語音技術合成,生成一段語音並傳達。整個過程是從聽到、聽懂到生成。

“马云爸爸”成立快一年的达摩院,究竟在做什么?

語音技術的好壞的通用度量指標是識別錯誤率。在中國是字的識別錯誤率,英文則是詞的識別錯誤率。據雷鳴介紹,現在一般識別錯誤率,比如做得比較好的是在一些比較好的領域,可以做到2-3%的錯誤率,做得比較差的是7-8%的錯誤率。

今天影響語音識別準確率的幾個方面。一個方面,語音識別本身模塊組成是分聲學模型、語言模型、解碼器三個部分。聲學模型是給定語言學單元,計算輸入語音匹配的可能性。“影響聲學模型,很典型的就是辭典,今天不斷有新詞,新的發音進來,比如二次元文化。如果辭典不是新的,不能覆蓋所有的目標識別領域,就不能識別。”

如今的識別環境同樣考驗硬件——麥克風的有效識別。如果不考慮麥克風還有環境因素,噪音、場地等這些噪音,語音識別的“雞尾酒效應”則是指,在一個嘈雜環境下,如何識別語音主體的問題。

除此外,還有特殊領域的專有名詞,中英混讀以及年齡兒童音等。“在一些會議識別系統中,如果不提前知道會議要說什麼,會識別的非常亂套。”

據介紹,阿里巴巴在語音識別模型方面最特別的是——Google和百度、訊飛基本上是基於LSTM模型技術,阿里巴巴主要基於DFSMN(深度前饋序列記憶網絡)技術。據此前媒體公佈的消息,對比目前業界使用最為廣泛的LSTM模型,訓練速度更快、識別準確率更高。採用全新DFSMN模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提到了3倍,語音識別速度提高了2倍。阿里提供的信息顯示,該模型的語音識別準確率為96.04%。

商業模式方面,Google、百度、訊飛更多直接面向終端用戶。阿里巴巴面更多的是面向合作伙伴。

據瞭解,阿里巴巴機器智能語音技術團隊主要攻克語音識別方向,包括語音識別,語音合成,人機對話。智能語音交互團隊主要做語音識別、語言理解、語音合成、人機交互、知識圖譜、聲紋識別等。

阿里巴巴已經有了一些應用。阿里巴巴園區7號樓的COSTA已經有一個語音點餐機,可以直接說出“兩倍熱巧克力”。

阿里巴巴還和上汽做了互聯網汽車應用,具備全語音操控,包括基礎語音能力,車載的地圖/導航技能,也可以在雲端不斷升級和優化。

在上海地鐵,已經擁有支持語音識別的售票機,你只需要對它說“買兩張去陸家嘴的票”。

在法庭上,利用語音識別技術就可以做書記員基礎的工作,最後讓書記員做一些整理。雷鳴介紹,目前基本覆蓋了300家法院。智能庭審覆蓋的法庭數超過6千家,首家互聯網法院,杭州互聯網法院已經部署了這個系統。

IoT時代,雷鳴則提出,多模態語音交互和下一代對話引擎,在未來IoT時代非常重要的技術點。

寫在最後

可以看出,此前阿里在各種大會上提出的AI應用,基本上已經在實踐達摩院的研究能力。

此前,我們也曾詳細介紹過阿里雲ET農業大腦的“智能養豬”,阿里巴巴工程師就親赴豬場就為每隻豬建立了數字檔案,也是建立在達摩院的技術體系之內。我們也可以得知,每個垂直領域的具體案例下會有很多詳細的問題考究。

達摩院體系內的研究人員大多數是各個技術領域的科學家,在一些科學家口中,“阿里達摩院不同於其他公司的研究機構”,他們跳出學術研究的小圈子,希望技術可以被更多的人的應用。達摩院最主要的工作就是技術創新,探討和業務、商業的合作的可能性。

實際上,在達摩院宣佈成立當天,馬雲發表演講稱,研究不應該是Research for fun(為快樂研究),也不應該Research for profit(為利潤研究),而是Research for solving the problem with profit and fun(為解決問題研究並帶來利潤和快樂)。

注:部分內容根據發言人口述整理


分享到:


相關文章: