公司會是未來AI技術研發的主體嗎?看看Facebook這五年幹了什麼

五年前, Facebook 人工智能研究院(FAIR)創立,旨在通過開放研究推進人工智能的發展,並惠及所有人。FAIR 的目標是理解智能的本質,以創造真正的智能機器。自此以後,FAIR 不斷髮展,併成長為一個國際研究組織,在門洛帕克、紐約、巴黎、蒙特利爾、特拉 維夫、西雅圖、匹茲堡、倫敦都設有實驗室。人工智能已經成為 Facebook 的核心,因此 FAIR 現在是更大的 Facebook AI 組織的組成部分,該組織致力於人工智能研發的各個方面,從基礎研究到應用研究和技術開發。

FAIR 在Fb工作的各個方面都應用了開放模式,與社區展開廣泛合作。我們團隊經常早早地發佈前沿研究成果,並儘可能地開源研究代碼、數據集和工具(如 PyTorch、fastText、FAISS、Detectron)。這種方法也成功地推動了人工智能的研究發展。今年,FAIR 的研究人員已經獲得了廣泛認可,在 ACL、EMNLP、CVPR、ECCV 等大會獲得了最佳論文獎,在 ECCV、ICML 和 NeurIPS 會議上獲得了時間檢驗獎(Test of Time award)。開放的工作可以讓每個人在人工智能領域取得更快的進步。

賦予機器真正的智能既是一個科學挑戰,也是一項技術和產品工程的難題。FAIR 研究的很大一部分集中在推理、預測、規劃和無監督學習的關鍵這些基本問題上。反過來,探索這些領域需要對生成模型、因果關係、高維隨機優化和博弈論等具備更好的理論理解。釋放人工智能未來的全部潛力需要這些長期的研究探索。Fb從過去五年解決的項目中挑選了一些,來展示 FAIR 是如何完成其使命、為這個領域做出貢獻並對世界產生影響的。

公司會是未來AI技術研發的主體嗎?看看Facebook這五年幹了什麼

這個時間表突出了過去五年中 FAIR 完成的許多項目。

記憶網絡

2014 年,FAIR 的研究人員發現了神經網絡的一個內在侷限——長期記憶。儘管神經網絡可以在數據集訓練過程中學習,但是一旦這些系統開始運行,它們通常就沒辦法存儲新的信息來幫助解決後面的特定任務。所以我們開發了一種新的支持學習模型的機器,這些機器記憶了足夠多的互動信息,可以回答一般的知識問題並在對話中參考之前的陳述。在 2014 年關於該方法的早期論文《Memory Networks》中,我們測試了這一點:讓一個支持記憶的網絡根據提供給它的《指環王》系列簡短總結來回答關於《指環王》情節的問題。該網絡能夠學習簡單的語言模式,泛化到未知單詞的含義並正確回答問題。

在接下來的兩年裡,FAIR 繼續發展這種方法,擴大了研究範圍並探索相關領域。該團隊用 push-pop 堆棧增強 RNN,即 StackRNN,它能夠以無監督方式從序列中訓練。該團隊建立了 bAbl 問答任務數據集,以幫助測試文本理解任務的性能。bAbI 現在是開源項目 ParlAI 的一部分,該項目包含數千個對話樣本,範圍從餐館預訂請求的回應到關於電影演員的回答。我們還迭代了記憶網絡的架構,使其對現實應用越來越有用。這些更新包括端到端記憶網絡(允許網絡以較少的監督工作)和 key-value 記憶網絡(可以通過對完全無監督的來源(如維基百科條目)進行歸納進行訓練)。

自監督學習和生成模型

長期以來,通過自監督學習(SSL)利用大量無標註數據來擴展人工智能一直是 FAIR 的優先事項。使用 SSL,機器可以通過輸入的未標註圖像、視頻或音頻來學習世界的抽象表徵。SSL 的一個應用例子是向機器展示視頻片段,然後訓練它來預測後面的幀。通過學習預測,機器可以捕捉關於世界如何運作的知識,並學習對世界的抽象表徵。使用 SSL,機器通過觀察來學習,一點一點,就像嬰兒和動物幼崽一樣,慢慢積累大量關於世界的背景知識。我們希望這樣能形成一種常識。獲取預測世界模型也是構建人工智能系統的關鍵,該系統能夠推理、預測其行為的後果並在現實世界中採取行動。

2014 年,我們來自蒙特利爾大學學習算法研究所(MILA)的朋友 Ian Goodfellow 等人提出了一種新的無監督學習方法——生成對抗網絡(GAN)。我們一下被自監督學習方法的潛在應用迷住了。但是,儘管 GAN 看起來很有前景,當時卻只在一些簡單的問題上證明了效果。自 2015 年開始,我們陸續發表一系列論文來讓研究社區相信 GAN 確實有效。GAN 被用來訓練機器在不確定的情況下通過兩個神經網絡互相對抗來做出預測。在典型的 GAN 架構中,生成器網絡從一堆隨機數中生成數據,例如圖像或視頻幀(可能還包括過去的視頻幀)。同時,判別器網絡需要區分真實數據(真實圖像和視頻幀)和生成器生成的「偽」輸出。這場持續的比賽既優化了兩個網絡,也帶來了越來越好的預測結果。

我們的每篇論文都關注 GAN 的不同變體,包括深度卷積生成對抗網絡(DCGAN)和拉普拉斯對抗網絡(LAPGAN)中的圖像生成,以及對抗梯度差損失預測器(AGDL)中的視頻預測。但是我們的共同貢獻是展示:GAN 可以「創造」逼真的圖像,如不存在的臥室、人臉或狗。

公司會是未來AI技術研發的主體嗎?看看Facebook這五年幹了什麼

上述例子展示了由生成網絡創造的一系列時裝設計。

其他研究人員自那時起開始研究我們在 GAN 方面的工作,用它們來生成驚人的高分辨率圖像。但 GAN 是出了名的難調,並且經常收斂失敗。所以 FAIR 通過在理論層面理解對抗訓練,探索了一些增加 GAN 可靠度的方法。2017 年,我們提出了 Wasserstein GAN(WGAN)方法,該方法使得判別器更加「平滑」、高效,以便告訴生成器如何改進其預測。WGAN 基本上是第一個在大量應用中收斂魯棒的 GAN。這避免了在系統優化時需要平衡判別器和生成器的輸出,進而導致學習穩定性顯著提高,特別是對於高分辨率圖像生成任務而言。

自此,FAIR 研究人員和 Facebook 工程師開始在一系列應用中使用對抗訓練方法,包括長期視頻預測和時裝作品的創作。但 GAN 真正有趣的部分是其對於未來的意義。作為一種在幾年前我們還無法使用的全新技術,它為我們在缺乏數據的領域生成數據創造了新的機會。它可能是我們構建自主學習機器的關鍵工具。

大規模文本分類

文本理解不是單一任務,而是多個子任務的複雜矩陣,如將語言的單詞、短語和整個數據集轉換成機器可以處理的格式。但是在做這些工作之前,文本本身也需要分類。很多年前,word2vec 等 NLP 模型通過大量基於詞的訓練對文本進行分類,模型為訓練數據集中的每個詞分配不同的向量。對於 Facebook 來說,那些方法太慢了,而且太依賴全監督數據。Fb需要對數百甚至數千種語言執行文本分類,其中很多語言並不具備大量數據集。文本分類系統需要擴展到所有基於文本的功能和服務,以及Fb的 NLP 研究。

因此,2016 年 FAIR 構建了 fastText,這是一個快速文本分類框架,學習詞表徵的同時還可以考慮單詞的形態。在 2017 年發表的論文《Enriching Word Vectors with Subword Information》中,FAIR 提出了一個將向量分配給「子詞單元」(subword unit)而不是整個單詞的模型,使系統為未出現在訓練數據中的單詞創建表徵。最終該模型可以擴展到數十億單詞,能夠從新的、未訓練單詞中學習,且訓練速度顯著快於典型的深度學習分類器。在一些情況下,之前的模型需要數天的訓練時間,而 fastText 只需要幾秒。

fastText 被證明是對基於 AI 的語言理解的重大貢獻,現在可用於 157 種語言。原始論文的被引用次數已超一千,fastText 仍是詞嵌入系統最常用的基線。在 Facebook 以外,fastText 也被廣泛用於大量應用,從我們熟悉的信息回覆建議到陌生的「算法劇院」產品 THE GREAT OUTDOORS,它使用 fastText 幫助選擇和排序公開網絡評論,然後將它們作為每次表演的臺詞。fastText 框架已經在 Facebook 中部署,對 19 種語言進行文本分類,它還被用於 DeepText 中,執行翻譯和自然語言理解。

前沿翻譯研究

快速、準確、靈活的翻譯是幫助世界各地的人們實現良好溝通的重要因素。因此,FAIR 在早期就開始尋找優於統計機器翻譯的新方法,統計機器翻譯在當時是最優秀的方法。Fb用了三年時間構建出基於 CNN 的神經機器翻譯架構,該架構完美結合了速度、準確率和學習。實驗表明該方法比當時最優的 RNN 速度快 9 倍。

公司會是未來AI技術研發的主體嗎?看看Facebook這五年幹了什麼

我們的多跳 CNN(multi-hop CNN)不僅更容易在較小的數據集上訓練,還能更好地理解拼寫錯誤的單詞或縮寫詞,如將「tmrw」(tomorrow 的縮寫)翻譯成「mañana」(西班牙語,表示將來某時)。整體上,這種 NMT 方法將翻譯準確率提升了 11%,翻譯交付的速度提升了 2.5 倍。除了改進我們自己的系統以外,我們還開源了 fairseq 的代碼和模型。

為了避免機器翻譯對大量訓練數據集(通常叫作語料庫)的需求,我們還探索了其它方法,如多語言嵌入,它可以在多語言之間進行訓練。去年,我們開源了 MUSE,這是一個學習多語言詞嵌入的 Python 庫,提供兩種學習方法:監督學習,使用發佈版本中包含的 110 個雙語詞典;無監督學習,在沒有平行語料庫的情況下在兩種語言之間構建新的雙語詞典。我們緊接著進行了無監督機器翻譯的研究,論文《Phrase-Based & Neural Unsupervised Machine Translation》獲得了 EMNLP 最佳長論文獎,該研究展示了無監督訓練對完整句子翻譯的顯著提升。

公司會是未來AI技術研發的主體嗎?看看Facebook這五年幹了什麼

兩種語言中的二維詞嵌入(左、中)可以通過簡單旋轉完成對齊(右)。旋轉後,詞翻譯可以通過最近鄰搜索來執行。

通過分享研究和資源(如 fairseq 和 MUSE),我們鼓勵大家利用更快、更準確、更通用的翻譯技術,不管是出於研究目的還是用於生產性應用。

惠及每個人的 AI 工具

AI 進展不僅依賴於突破性的想法,還依賴於強大的平臺和測試實現工具。FAIR 優先構建這些系統,並與世界共享成果。2015 年,我們開源了大量 Torch 深度學習模塊,它們由 FAIR 創建,旨在加速大型神經網絡的訓練速度。2016 年,Fb發佈了 Torchnet,以使社區更簡單快速地構建高效、可重用的學習系統。之後不久,我們開源了 Caffe2,目前這一適用於移動計算的模塊化深度學習框架在全世界範圍內超過 10 億臺手機上運行神經網絡。然後Fb與微軟和亞馬遜合作發佈了神經網絡交換格式 ONNX,它是一個表徵深度學習模型的標準,可實現模型在不同框架之間的遷移。

Fb在 PyTorch 方面的工作展示了 FAIR 致力於快速迭代、有意義的影響、開放式系統以及與 AI 社區的合作。PyTorch 最初只是一小部分 FAIR 研究員的小小嚐試。Fb沒有選擇構建一個全新的深度學習框架,而是基於 Torch 開源庫構建新框架,Fb整合了英特爾和英偉達的加速庫以最大化速度。Fb於 2017 年初開源 PyTorch,天啊,距離現在還不到兩年!現在它是 GitHub 上增長第二快的開源項目,也是全球 AI 開發者的框架之選。今年 10 月,數百名 AI 社區成員參加了首屆 PyTorch 開發者大會,聆聽 Caltech、FAIR、fast.ai、谷歌、微軟、英偉達、特斯拉等的演講。現在 PyTorch 1.0 版本整合了 Caffe2 的模塊化、生產導向能力和 ONNX,為從原型製作到生產部署的整個過程提供無縫路徑,PyTorch 1.0 還與雲服務和技術提供商有深入融合。

公司會是未來AI技術研發的主體嗎?看看Facebook這五年幹了什麼

PyTorch 被整合進 Facebook 的產品中,被數十億人使用,同樣也被 FAIR 其他研究項目使用,比如 fairseq(-py),它比之前版本的翻譯速度提高了 80%。Facebook 的強化學習智能體 ELF OpenGo、EmbodiedQA,以及在具備標籤的數十億公開圖像上訓練圖像識別網絡的成功研究也使用了 PyTorch。除了 Facebook,PyTorch 還支持 AllenNLP、紐約大學教授 Narges Razavian 等的研究和項目,現在 Udacity 和 fast.ai 正在幫助更多的人使用 PyTorch。

PyTorch 加快並簡化了模型從研究階段到生產階段的過程,而 FAISS 則加速了大規模搜索。FAISS 最初是一項內部研究項目,旨在更好地利用 GPU 識別與用戶偏好相關的相似性,現在它是同類庫中速度最快的,且能夠利用十億規模級的數據集。FAISS 為推薦引擎和基於 AI 的助理系統提供了可能性。去年,Fb開源了 FAISS 庫,它被開發者社區廣泛採用,在 GitHub 上有 5000 多星,並整合進英偉達的 GPU 加速 scikit-learn 庫 cuML。

計算機視覺領域新基準

嘗試理解智能的本質屬於多模態感知研究,但是 FAIR 過去五年的經歷卻是實實在在依靠計算機視覺的發展。在 FAIR 成立之前,Facebook 只有少數 AI 專家試圖更好地理解圖像中的像素如何表徵人,以使合適的照片在合適的時間出現在人們面前。2017 年,FAIR 研究員何愷明等人的論文《Mask R-CNN》榮獲 ICCV 最佳論文獎,該研究將計算機視覺領域最好的東西結合起來:目標檢測和語義分割。

公司會是未來AI技術研發的主體嗎?看看Facebook這五年幹了什麼

該論文寫道:「Mask R-CNN 沒有使用其它技巧,但其表現超越了在每個任務上已有的任何單個模型,包括 COCO 2016 挑戰賽的獲勝模型。」該研究迅速成為更廣泛 AI 社區中計算機視覺研究的基礎。之後該技術被整合到 Facebook 的開源 Detectron 系統中,將這一易用、快速、準確的元算法帶給世界各地的研究人員。

這一基礎性工作支撐著 Facebook 目前的大量系統,如使用目標識別技術為視障人士生成照片說明的自動替代文本(automatic alt text),以及檢測不良信息的工具。它也是未來應用的基石:Facebook 全平臺的 AR 功能和 Portal 中的 Smart Camera 都根植於這一研究。該研究仍在繼續,不過研究重心轉到了視頻,DensePose 項目將幫助 Facebook 的系統像理解照片那樣理解視頻內容。

公司會是未來AI技術研發的主體嗎?看看Facebook這五年幹了什麼

DensePose 為移動的人創建 3D 表面的視頻截圖,來源:https://www.facebook.com/Engineering/videos/10156359820477200/

圖像理解:更快速的訓練和更大的數據集

計算機視覺不是 FAIR 嘗試解決規模化挑戰的唯一領域。FAIR 與 Facebook 應用機器學習(AML)團隊合作,解決訓練速度、訓練數據集大小以及缺少監督數據集的問題。在今年早些時候發表的一篇論文裡,AML 團隊介紹了他們如何在帶標籤的大型公開圖像數據集上訓練圖像識別網絡,其中最大的數據集包括 35 億張圖像和 1.7 萬個標籤。該數據集規模比之前研究的數據集大一個數量級,但準確率達到 85.4%,是目前該領域已發佈研究中得到的最好結果。

這一突破和 FAIR 在訓練速度方面的研究不無關係,FAIR 在 ImageNet 數據集上的訓練速度比之前的最優研究快一個數量級。他們將訓練時間降到一小時以內,展示瞭如何使用比之前實際可用 minibatch 規模大一個數量級的 minibatch 執行 SGD 訓練。他們稱:「為了達到這個結果,我們採用了線性縮放規則(linear scaling rule)作為 minibatch 大小函數來調整學習率,並開發了一種新的預熱方案(warmup scheme),該方案會在訓練前期克服優化的困難。」

在訓練速度實現這一改進後,我們能夠在更大的數據集上對弱監督學習進行直接研究。這兩項研究的結果表明 FAIR 和 AML 之間合作的價值。當解決 AI 問題這一學科領域受到實際研究和生產應用的支持時,我們看到了快速、當前最優的結果。

FAIR 的未來

Fb創建 FAIR 的最終目標是理解智能,發現其基本原則,使機器更加智能。這一目標始終沒有變過。Fb將繼續擴展研究領域,如開發能夠通過自監督學習獲得世界模型的機器,訓練機器進行推理,以及訓練機器規劃和設想動作的複雜結果。這是Fb研究機器人學、視覺推理和對話系統的原因之一。上文介紹了一些具體項目,展示了已有的成績,但是我們在科技方面還有很長的路要走,才能使機器足夠智能,走入人們的日常生活。


分享到:


相關文章: