01.07 NeurIPS 2019:進入NLP的黃金時代

作者:Mo Islam, Partner, Threshold Ventures

編譯:ronghuaiyang

導讀

2019年是NLP爆發式發展的一年,有點像之前的計算機視覺領域,不僅僅體現在學術界,工業界也是如此。

NeurIPS 2019:進入NLP的黃金時代

我剛從溫哥華神經信息處理系統年會回來。自從我 2015 年最後一次參加以來,很多事情都改變了。NeurIPS(原名 NIPS)已經從 3700 人發展到超過 13000 人,成為世界上最大的機器學習研究會議。我還注意到,尋找頂級機器學習人才的公司和初創公司的數量呈爆炸式增長。

我聽了幾個非常好的演講:1)Celeste Kidd 關於人類信仰的形成以及機器學習算法如何影響我們所知道的東西的演講。2)Yoshua Bengio 對話 Daniel Kahneman,討論機器意識,代理以及代理生成,包括系統到深度學習。NeurIPS 的大多數演講都是技術性很強的,但這兩個演講對於普通觀眾來說是可以理解的。它們讓我們對未來 10 年的機器學習將是什麼樣子,以及它將如何影響我們的生活有了重要的瞭解。

我今年參加了 NeurIPS,主要想了解以下機器學習的最新進展。毫無疑問,當前最令人興奮的行業浪潮是自然語言處理(NLP)的進步。我已經跟蹤這個行業很多年了,但是在過去的一年裡,我們看到了技術上的巨大進步,我相信我們正在進入 NLP 的黃金時代。與過去幾年在計算機視覺方面的主要進步類似,NLP 在性能方面已經達到了一個閾值,可以解鎖許多新產品和服務。

NeurIPS 2019:進入NLP的黃金時代

算法

算法開發主要由大型科技公司提供資金,並通過開源軟件進行發佈,這正在迅速推動 NLP 技術的發展。一個經常被談論的技術是[BERT](https://ai.googleblog.com/2018/11/opensourcing-bert -state- art-pre.html "BERT")(使用 transformer 的雙向編碼器表示),這是由谷歌開發的最先進的 NLP 預訓練技術。BERT 在整個行業中非常的重要。NLP 是一個多樣化的領域,它需要許多特定於任務的數據集 — 缺乏特定任務的訓練數據是一個巨大的冷啟動挑戰。BERT 接受過 Wikipedia 語料庫的訓練,他為開發人員和數據科學家啟動了 NLP 模型的構建,允許他們使用小型數據集來 finetune 特定的 NLP 任務。它依賴於 transformer,一個新的神經網絡結構,可以直接模擬一個句子中所有單詞之間的關係,以及雙向性,這是一個古老的想法,第一次被用來預訓練一個深度神經網絡。

科技巨頭之間對 NLP 優勢的競爭和開源軟件帶來的自然合作為過去一年取得更大進展鋪平了道路。Facebook 人工智能選擇了 BERT,並對其中的一般進行了更好的優化,得到了[RoBERTa](https://ai.facebook.com/blog/roberta-an- optimizedmethod -for-pretraining-self- -nlp-systems/ "RoBERTa")。百度的靈感來也自 BERT,併產生了目前表現最好的模型,如下所示,它位於 GLUE(通用語言理解評估)的排行榜第一名上,GLUE 是評估 NLP 模型的基準。以 Sesame Street 中 Bert 的朋友名字命名的“ERNIE”,在中文的語料上的表現超越了其他的。雖然不像 Sesame Street 那麼友好,但微軟也推出了一個受 BERT 啟發的模式[MT-DNN](https://blogs.msdn.microsoft.com/stevengu/2019/06/20/microsoft-achieves-human-performance- estim- onglue-benchmark/ "MT-DNN")。OpenAI 最近發佈了另一款基於變壓器的模型 GPT-2,在 800 萬個網頁上訓練了 1.5B 參數。感謝 ML 工程師 Adam King,你可以用它來完成你的句子。

由大型科技公司資助的算法的持續改進,通過開源軟件發佈模型是推進 NLP 的關鍵

NeurIPS 2019:進入NLP的黃金時代

應用

最先進的預訓練模型的可用性對於新產品和服務中的大規模 NLP 採用來說是超級令人興奮的。在企業生產力、客戶服務和醫療記錄等領域跨產品構建功能的開發人員可以利用這些預訓練的模型來快速構建問答系統、情感分析和臨床決策支持工具。這些只是幾個例子。語言無處不在(代碼也是語言!),我相信 NLP 有潛力支配幾乎每一個行業。

這項技術也正在迅速投入生產。谷歌已經在美國使用 BERT 提高了 10%的搜索量,隨著新模型的建立,它將擴展到更多的語言和地區。

雖然許多 NLP 技術將成為產品的特色或用來改善服務,如谷歌搜索,我們也將看到對話型人工智能的復甦。聊天機器人融資熱潮仍在持續中,但我堅信,當時基礎的 NLP 技術還不夠成熟,不足以充分支持這些應用。許多處於早期階段的公司要麼失敗了,要麼早早退出了。我對未來五年複雜的人工智能對話系統和基於代理的模型的復興感到興奮,因為這是 NLP 的門檻。

除了應用之外,我還希望看到更多的工具和基礎設施(構建在開放源代碼之上),以使開發人員和數據科學家能夠將他們的模型投入生產。與 Transformer GPT-2 web 應用演示的對話是可能的,因為工具為該模型提供了一個簡單的 PyTorch 實現。我認為,初創公司將有更多的機會提供模型管理、模型治理和模型 CI/CD,以簡化生產用例中對 NLP 的採用。NLP 已經準備好進入黃金時段。我認為這是一個好兆頭,它預示著新興公司的自下而上、開發人員驅動和高速的商業模式。我預計許多公司會為這個基礎設施做出貢獻,但我不認為它們將主要由亞馬遜或谷歌製造。

在風險投資中,我們投資的是處於變革式增長門檻的顛覆性公司。我相信 NLP 正處於這樣的一個臨界點。NeurIPS 為我們提供了一個絕佳的視角,讓我們瞭解該行業在過去一年裡取得了怎樣的進展,以及受益於這項技術的新產品還有多大的潛力。我期待著進入 NLP 的黃金時代。

英文原文:https://medium.com/@thresholdvc/neurips-2019-entering-the-golden-age-of-nlp-c8f8e4116f9d?


分享到:


相關文章: