終於有人對語音技術來了次徹頭徹尾的批判!

ImageNet的出現帶來計算機視覺領域的突破發展,掀起了一股預訓練之風,這就是所謂的ImageNet時刻。但與計算機視覺同樣重要的語音領域,卻是遲遲不見“ImageNet時刻”的到來。而作為NLP研究中最重要的方向之一——語音轉文本(Speech-to-Text,STT)更是如此,雖然這項技術幾乎已經滲透進我們日常生活的方方面面,但是研究上卻也未有歷史性的突破。這是為什麼?終於,有專家站了出來,對語音領域研究做了一次徹頭徹尾的批判,從學術界到工業界都沒放過。

本文中,這位專家將從構建STT模型的實踐過程中,回答下面的幾個問題:

  1. 什麼是所謂的ImageNet時刻,它為什麼重要?
  2. 為什麼語音行業的ImageNet時刻尚未到來,學術界和工業界為此需負什麼責任?


終於有人對語音技術來了次徹頭徹尾的批判!


ImageNet時刻是什麼?

在我們看來,在特定機器學習子領域中的ImageNet時刻指的是:

  1. 解決95%的標準“有用”任務所需的框架和模型組件,作為標準和經過測試的開源框架模塊獲得廣泛的可用性;
  2. 大多數流行的模型都可以使用來自大型數據集的預訓練權重,使得通過較少數據對下游任務進行微調成為可能;
  3. 解決了從使用預訓練模型的標準任務,到不同日常任務的這類微調(即很可能效果良好);
  4. 與之前在論文中報告的計算需求(在STT領域是100-1000GPU日)相比,訓練日常任務模型所需的計算量(例如在STT領域是1-10GPU日)很小;
  5. 小型獨立公司和研究小組可以使用大型模型的預訓練計算。

如果滿足上述條件,全新實用的應用就能以合理的成本進行開發。此外,行業民主化也會隨之而來——人們不必再依賴諸如谷歌這樣的大公司作為行業中的唯一真相來源。

終於有人對語音技術來了次徹頭徹尾的批判!


為什麼STT的ImageNet時刻尚未到來?

要了解這一點,我們先試著理解有哪些事件和趨勢代表著計算機視覺(CV)領域進入了ImageNet時刻。

終於有人對語音技術來了次徹頭徹尾的批判!

可視化圖表:引領計算機視覺領域進入ImageNet時刻的關鍵趨勢和事件

簡單來說:

  1. 數十年來,NVIDIA公司一直在製造和優化消費類GPU,眾所周知,現在只需將4-8個頂級GPU放在一起,便可以構建一臺“超級計算機”;
  2. 據傳言稱,2000年代後期,NVIDIA設想GPU性能足以滿足機器學習的需求,就在那時他們開始投資CUDA技術(首個版本發佈於2007年),這是一個基於大多數GPU加速的機器學習應用而構建的低級矩陣乘法框架;
  3. 2009年,一支由李飛飛教授領導的團隊發佈了ImageNet數據集,之後在2011年發起了現稱ImageNet大規模視覺識別挑戰賽(ILSVRC)的競賽。在2012年,Alex Krizhevsky等人也使用了NVIDIA GPU和CUDA來訓練現在著名的AlexNet神經網絡,並實現了遠超之前的性能表現;
  4. 自此之後,深度學習框架一直在發展,並在2017-2018年左右逐漸成熟。本文發表之際,PyTorch和TensorFlow已是首選的解決方案,除了圖像分類之外,它們還針對許多任務提供了海量的預訓練模型;
  5. 同一時期,在ImageNet上實現SOTA性能的模型框架也在一直不斷完善,隨著發展,訓練和評估這些模型的代碼也隨著在相同流行框架中的預訓練權重一併發佈。

因此,到2018年左右,“ImageNet時刻”在視覺界已完全實現:

在計算機視覺(CV)領域,不再將ImageNet圖片分類本身作為目的,而是將其作為訓練深度卷積神經網絡(CNNs)的“前置任務”,以瞭解其良好通用功能的做法愈發普遍。這種預先訓練CNN在ImageNet上執行圖片分類(即預訓練),然後將這些功能用於新目標任務(即微調)的做法已成為解決大量計算機視覺問題的事實標準。使用ImageNet預訓練的CNN功能,在一些圖片分類數據集、對象檢測、動作識別、人體姿勢評估、圖片分割、光流(optical flow)、圖像自然語言描述(image captioning)等任務上都獲得了令人印象深刻的成果。

為了簡化此論據,我們假設STT共享了硬件加速選項、框架及關於CV神經網絡架構的一些成果。另一方面,與CV相比,STT的預訓練模型、遷移學習和數據集明顯落後。此外,計算需求(如研究論文中所述)仍舊過高。

讓我們更詳細地瞭解這種情況背後的原因。關於語音的大部分研究是由工業界/公司所贊助的學者發表的,因此我們將對其研究與學術界和工業界相關的部分提出批評。公平起見,我們也會批評自己的解決方案,也歡迎讀者向我們([email protected])提出反饋和批評。

終於有人對語音技術來了次徹頭徹尾的批判!

對工業界的批評

通常來講,我們讀過的大多數STT論文都是由工業界(如谷歌、百度和臉書)的研究者所撰寫的,大多數針對STT論文和解決方案的批評都可以歸咎於研究者的“學術界”或“工業界”背景。

簡而言之,這是我們針對STT工業界部分主要關注的問題:

  • 構建基於私有數據的解決方案,並且在報告中不夠明確;
  • 複雜的框架及工具包;
  • 解決並不存在的問題;
  • 在論文中混淆結果。

構建基於私有數據的解決方案,並且在報告中不夠明確

著名的《Deep Speech 2》(深度語音2)論文(2015年發表)中包含以下圖表:

終於有人對語音技術來了次徹頭徹尾的批判!


基本上,論文中表達了這樣的觀點:需要大量數據才能擁有高質量的模型。這是幾篇明確報告此問題並執行數據集之外驗證的論文之一。大多數現代STT的論文通常都在用愈來愈奢侈的方法對LibriSpeech ASR corpus (LibriSpeech)語料庫進行過度擬合。

很可能谷歌、臉書和百度公司都有1萬-10萬小時的私有數據集用於訓練其模型。這很好,但問題在於:他們使用這些數據來提升自己的性能,卻沒有報告出來。由於標註語音需要很長時間,問題就愈加複雜。因此,由於成本過高,該領域的小型參與者無法構建自己的數據集。即便他們採用了類似我們的方法來獲取標註,也需要大量資源、時間和精力,來生成標籤並進行大規模驗證。

1個小時的語音,標註起來可能需要2-10個小時,具體取決於數據集的挑戰性以及是否附加了某些形式的自動標籤(即以其他STT系統輸出的形式存在)。STT與CV不同,後者中有用的數據集可以通過標註一小部分來實現,而前者——即語音標註非常昂貴,從而導致目前的情況:每個人都在一個備受尊敬的公共數據集(LibriSpeech)上宣稱獲得了最高成果,但對於這些模型如何在真實情況下執行,以及哪些模型在生產環境下針對什麼進行了訓練的報告幾乎沒有動力。谷歌、臉書或百度等大公司缺乏明顯的經濟誘因來開源其大型專有數據集。總而言之,這為意圖構建自己STT系統的從業者設置了極富挑戰性的准入壁壘。類似*Common Voice*這樣的項目會讓情況簡單一些,但它們的數據還不夠多。

複雜的框架和工具包

工具包**

COMMITS

CONTRIBUTORS

語言

評論

Wav2Letter++

256

21

C++

提交的版本與發行版可能更相似

FairSeq

956

111

PyTorch

OpenNMT

2,401

138

PyTorch

EspNet

5,441

51

PyTorch

Typical Project

100-500

1 - 10

PyTorch

依靠框架或工具包,而不是從頭寫起的情況非常常見。人們會希望有為STT設計的專用框架和工具包,然後基於這些框架所提供的模型進行構建,而不是在基礎的PyTorch或TensorFlow上從頭寫自己的模型。不幸的是:對於語音識別來說,情況並非如此。使用這些解決方案來開啟自己的STT項目並不合理,原因很多:

  • 代碼是為了大型運算而優化過的;
  • 只有小型學術數據集中存在引導方案(端對端案例表明如何使用這些框架),無法在未經大型運算的情況下擴展到大型數據集中;
  • 這些引導方案的樣本效率極低(我們最喜歡的樣本在數據集中訓練10GB的LMs,文本足有數百兆字節);
  • 即便在LibriSpeech上對模型進行了預訓練,很可能也無法轉移到真實環境中;
  • 如果想要構建一個內部的STT解決方案,將其內部化並正確理解優化,你可能需要一個大型團隊或者相當可觀的時間來將這個工具包內部化;
  • 上述工具包或是已經發布的內部解決方案,或是PR版、搶先上市版或生態系統構建工具。這意味著大多數情況下,這款工具包會作為恰當的MVP或基準出現,但如若不投入大量資源,你無法輕易優化此類管道(對於公司來說,無論如何都會編寫自己的工具包)。

從更加個人化的角度來看,我們多次嘗試對FairSeq 以及 EspNet管道進行某些程度的內部化,但無法在合理的時間和精力範圍內完成。也許我們的機器學習工程技能還有很大改進空間,但就算工程技能更優的人也表達過類似的看法(即專職的C++機器學習編程者)。

解決並不存在的問題

構建一個更新更好、可用於8個價值1萬美元的GPU上運行的工具包,對於真實世界的應用來說並無幫助。

基於真實生活中的數據,創建併發佈一個免費、開放及公共領域的數據集,然後發佈對其進行預訓練的模型(這就是CV中發生的情況)才是真正的解決方案。然而,除了Mozilla的Common Voice項目之外,我們還沒看到任何有價值的計劃。

無法再現的結果

在機器學習中有一個常見的模式,即每週都有人聲稱獲得了最前沿的結果,但這類結果很少是可重現的,或者附有可簡單運行的代碼。

考慮到與加速後的硬件,以及大型數據集的集成問題,其困難度及訓練模型所耗費的時間使得可重現性更難實現。

與“最為前沿”的口號相反,我們相信,應當將更多注意力轉向“優秀到足以在真實生活中使用的”解決方案和公共數據集上。

終於有人對語音技術來了次徹頭徹尾的批判!


對學術界的批評

下面是我們觀點的簡單總結:

  • 如果一大群人都在關注追求某種標準上的頂尖成果,則這項指標會失去其意義(可參考見古德哈特定律:當一個政策變成目標,它將不再是一個好的政策)。如果不能快速迭代,學術數據集將成為各大公司用以炫耀的“排行榜”。為了達到最先進的水平,在大型計算中使用龐大而樣本低效的網絡已經成為默認規則,儘管較小型的從業者無法參與;

  • 理想情況下,論文應當有足夠的細節信息,從而令獨立研究人員也能獲得95%以上的論文信息;

  • 在實際情況下,論文內容和結構通常會因其實際目的和真實生活中的應用而受到質疑,即其發表時以“不發表就完蛋”的心態來發布,其中以複雜的數學來解釋新概念,儘管事實上這些研究者自身也許與所列舉的數學信息並無關聯,只是借用現成的工具罷了。

除了可重現性之外,論文常見的問題還包括:

  • 在方法的一般化(即域外測試)上含糊其辭,如果看一下論文,似乎神經網絡在自動語音識別(ASR)上打敗了人類,但那只是“排行榜”問題的另一個症狀,並非事實;

  • 他們通常不會說明所花費的計算量;

  • 他們幾乎不會發布收斂曲線(即達成最先進成果的一部分所需要耗費的時間和計算量是多少)。通常在機器學習中,95%甚至99%的結果只需要總計算量的很小一部分即可達成。

被SOTA bug咬住

我真的很喜歡“被SOTA bug咬住”這樣的表達。簡而言之,如果一大群人都專注於追求某個抽象指標的頂尖成果,則該指標就失去了意義(這也是古德哈特定律的經典體現)。這類情況發生的具體原因不一而足,而且可能非常技術性,但在機器學習中,通常是由於模型與用於指標計算的數據集中某些隱藏的內在特質過度擬合所導致的,例如,在計算機視覺領域,這類模式通常是視覺上類似的一組圖像。

相對於較為大型、更熱門的社區來說,追求學術或科學目標的小型理想主義的低調社區更不容易成為古德哈特定律的受害者。一旦達到一定的知名度,社區就會開始追求指標或道德信標(釋放道德信號,以某種言論顯示自己站在道義一方;單為炫耀而炫耀自己的道德價值觀,無需付出任何實際努力),不再追求真正的進步,除非某些危機來臨。這就是被SOTA bug咬住的意思。

舉個例子:在自然語言處理(NLP)領域,這種態度導致人們對根據公共學術基準而優化的大型模型的非理性過度投資,但是這樣的“進步”實用性非常有限,原因很多:

  • 即使最好最先進的模型對於手上的任務理解也很有限(畢竟機器學習屬於模式匹配);
  • 由於計算所耗費量可能會相差幾個數量級,最近的最先進成果也越來越難比較了;
  • 難以再現的性質限制了其在真實世界中的使用;
  • 更多數據&計算量 = SOTA不是研究新聞;
  • 排行榜指標被過度高估。

最近,NLP領域的學術數據集大量出現,但通常其真實情況下的適用性受限於多種因素:

  • 這些數據集大多是英文的;
  • 就研究可能性方面,這些數據集很棒,但與CV不同,在實際管道中它們很難合併;
  • 儘管在構建類似SQUAD這樣的數據集上所花費的努力和精力都很可觀,但在生產模型中想要使用還無法真正做到;
  • 穩定的生產級NLP模型通常基於大出若干個數量級的數據來構建,或者就是手上的任務相當簡單。舉個例子:假設某個神經網絡可以可靠地完成命名實體識別(Named Entity Recognition,NER)很安全,但在回答問題或維持對話方面,目前還只是科幻小說級別。我喜歡這個恰當的比喻:用transformer來構建AGI,就像是通過建設高塔來登月。

關於機器學習的驗證和指標,(相對於與“越高越好”的標準)存在一種競爭性的觀點,我們贊同這樣的說法:一個機器學習管道應當被視為一種壓縮算法,即你的管道將現實世界壓縮成一組具有內存、計算和硬件需求的計算圖與模型。如果你有辦法將與一個性能大致相似的模型放入權重尺寸或計算大小上要小10倍的模型,則在排行榜上獲得額外0.5%的進步會是一個更好的成績。

另一方面,好消息是工業界的人士開始考慮方法的效率,甚至谷歌也開始發表關於有效訓練Transformer模型庫的論文了。

論文內容和結構

終於有人對語音技術來了次徹頭徹尾的批判!


傳統意義上,在機器學習中,新的想法已經以數學公式的形式共享了。這種做法歷史悠久,也容易理解,但存在缺陷。由於如今開源工具的廣泛採用,在構建應用解決方案、優化現有方案、解釋事物運行方式(這是一項單獨的艱苦工作)、構建基本模塊或框架(如果百度構建的warp-ctc,或者臉書構建的PyTorch)和創建新的數學方法存在著明顯的分界線。

機器學習的研究人員通常都同意這個看法:論文中存在很多為方程式而方程式的內容。但它們是否真的有助於我們理解事物的真正運行方式呢?我們以CTC(Connectionist Temporal Classification)損失為例來說明這個觀點。幾乎每篇用到這個損失的STT論文中都有專門的章節來描述,你可能會在其中找到一些公式,但是否能幫助你理解呢?

CTC損失是個複雜的問題,而且很可能是STT研究最大的推動力,但很少有論文提到它們使用了哪種實現。在我讀過的論文中,還沒看到下列看法。該怪我的無知,或者實現時的怪癖,還是他們故意忽略了這些內容呢?

  • 每3個月,我會將warp-ctc與PyTorch原生的CTC損失相比較,使用真實數據時後者無法正常運作;
  • 與標準損失相比,CTC損失相當“激進”;
  • 通常需要某種形式的修剪或預熱,CTC損失“喜歡”爆炸;
  • 對於在第一階段向你的網絡展示哪些數據,你應當非常小心。

當然,你可以參考原論文(由一名數學家撰寫),或者參考stellar piece on Distill on CTC,後者更易讀懂。但老實說,我能找到的最佳解釋是一個俄語視頻:obscure YouTube video,其中有兩個人坐在那裡通過樣例來解釋其運作原理,並藉助幻燈片逐步詳析。因此,論文中的所有空間都被公式佔用了,雖然在技術上來說很可能是正確的,但什麼也沒解決。事實上,完成一個類似視頻3Blue1Brown的人所做的工作非常困難,但很可能引用恰當的解釋會是個解決方案?

試想一下,如果機器學習論文和出版物遵循以下模板,傳遞結果的難度要降低多少:

  • 使用這些工具包、實現和想法;
  • 進行這些主要的改動;
  • 運行這些試驗,這是我們的結論。

在“小型”學術數據集上訓練樣本低效率的過度參數化網絡

我們來看看從推廣ASR的原始論文Deep Speech 2開始,到現在進步了多少。

終於有人對語音技術來了次徹頭徹尾的批判!

從這篇論文改編,《Deep Speech 2》的論文中所報告的人類結果。

是否似乎字符錯誤率(CER)和詞組錯誤率(WER)的指標實際上降低了60%,並超過了人類水平?因此,如果運行效果如此之好,為什麼我們不能在每臺設備上看到理想的STT彈出?為什麼語音接口仍被認為是一項很酷的功能,特別是在商業應用中?

儘管根據下表的數據,在轉到音頻時,人類通常會有5-10%的錯誤率,但這個表格具有誤導性。我們閱讀了一些論文,並發現了一些情況:

  • 較新的論文很少使用較小的模型來執行消融試驗(ablation tests);
  • 聲稱包含最先進性能的ASR論文很少會出現收斂曲線;
  • 這些論文很少報告用於超參數搜索和模型收斂的計算量;
  • 在我們讀過的論文中,僅有Deep Speech 2對較小型數據集上的性能如何轉化到實際生活的數據方面有所關注(即域外驗證);
  • 沒有針對真實數據集的樣本效率和可伸縮性做過優化。2019年的幾篇論文與(Time-Depth Separable Convolutions, QuartzNet)講述的內容大致相似,但更關注減少模型大小,而不是訓練時間。

終於有人對語音技術來了次徹頭徹尾的批判!

原始的研究報告請在這裡查看(https://blog.timbunce.org/2019/02/11/a-comparison-of-automatic-speech-recognition-asr-systems-part-2/),關於ASR系統在真實世界中的情況,將野外表現與人類基準相對比的案例極少。即便在清晰的英文語音中,人類也有4-11的WER(取決於域)!

我理解研究是遵循週期性的(新的嘗試效率低下,優化後再取得新的進展),但似乎ASR研究是古德哈特定律在實踐中的一個很好的例子。

  • 如果你閱讀了在PyTorch上預訓練的深度語音的發佈通知,並看到“不要指望這些模型能夠在你自己的數據上執行良好”這樣的話,可能會很驚訝——經過了1千小時語音的訓練之後,CER和WER都很低。但在實踐中,配有某些1萬小時的理想數據集的系統,其WER趨近25-30%(而不是像廣告中那樣,清晰語音5%和嘈雜語音10%);
  • 在CV相關的研究中,更好的Imagenet性能實際上轉移到了數據集更小的真實任務上,與之不同,在語音中,LibriSpeech上的更佳性能並沒有轉移到真實世界的數據上。你無法像在CV中用1千張圖像訓練你的網絡那樣,僅通過1千小時的語音來“快速調整”你的網絡;
  • 所有這些意味著學術界和企業界已經有越來越多的複雜方法針對LibriSpeech進行過度擬合。

儘管可以理解:研究人員想要在自己的問題上取得進展,並使用可用的數據;但最終事實證明:首先將類似ImageNet這樣的項目用於創建真正大型且具有挑戰性的數據集會更加有用。

過度依賴大型計算

終於有人對語音技術來了次徹頭徹尾的批判!


過度參數化的案例。谷歌在實驗中顯示:其大型和中型網絡之間沒有顯著的質量差異,即在實踐中我們可以放棄中型網絡,使用其他技巧來提高質量。

下面是我們對著名或近期ASR論文中所使用計算的分析:

終於有人對語音技術來了次徹頭徹尾的批判!


終於有人對語音技術來了次徹頭徹尾的批判!


因為變形更多,俄語比英語更難,儘管我們的數據集包含很多域,因此無法直接與LibriSpeech相比較,不過LibriSpeech同質化更嚴重,噪音也更小。

查看下錶,我們可以發現以下信息:

  • 大多數在LibriSpeech上訓練的模型都以週期性的方法來完成,即N次顯示完整數據集。成本非常低效,因此我們使用課程學習方法;
  • QuartzNet. 這篇論文較為關注效率,但似乎用於訓練的計算量與其他論文相當;
  • TDS. 儘管他們沒有明確報告訓練其網絡所需要的時間(我們嘗試複製其網絡,但失敗了),但他們有許多很合理的理念——使用字節對編碼(byte pair encoder,BPE),使用strides超過2或3的模型,使用簡單來說算是可分離卷積的東西;
  • JasperNet. 他們報告中說道:對其網絡進行了或50個或500個時期的訓練,但沒有明確提到訓練時間或使用的硬盤量;
  • Wav2Letter. 在回顧中,Wav2Letter的論文實際上並沒有報告任何指標,這令人驚訝。我們嘗試了類似Wav2Letter的網絡,有大約20-30M的參數,但沒有提供俄語;
  • Deep Speech 2. 很難將原始的Deep Speech論文包括在本列表中,主要是因為他們嘗試、推廣和開創了很多不同的東西。我們只能把他們最常被引用的LibriSpeech試驗和遞歸模型包括在內。

終於有人對語音技術來了次徹頭徹尾的批判!

模型大小 vs 最終結果, Deep Speech 2.

終於有人對語音技術來了次徹頭徹尾的批判!

數據量 vs 最終結果, Deep Speech 2.

查看下錶,我們還可以發現以下趨勢:

  • 幾乎到處都在使用大型計算,並且沒有明顯的硬件需求趨勢(儘管論文中聲稱計算負擔已經減輕);
  • 網絡的範圍從緊湊到龐大,但終歸大多數網絡都在過度擬合LibriSpeech的假定是很安全的,無論使用什麼計算;
  • 如果跳至“已取得的總體進步”,查看我們的收斂曲線和下面的收斂曲線,你會發現90%的融合發生在最初2-3天內,與整個行業一致(但我們使用的總體計算要少得多)。

終於有人對語音技術來了次徹頭徹尾的批判!

Deep Speech 2的收斂曲線

終於有人對語音技術來了次徹頭徹尾的批判!


其他常見的批評

在處理機器學習或語音轉文本方面的常見批評:

  • 通常,論文在方法的一般化方面(即域外測試)含糊其辭;
  • 對於超參數的穩定性很少關注;
  • 全新的半監督及無監督學習方法(wav2vec, cyclic STT-TTS training)並沒有對樣本效率、魯棒性或一般化進行任何清晰或簡便的檢查,而且大多關注新穎性的元素;
  • 對所有情況執行端對端標準。學術論文通常會過度擬合其LMs,並在一個小型的理想化數據集中(LibriSpeech)執行後期處理,其方法聲稱:由於文本域中可用數據量至少要高出1千倍,頂級的端對端結果極其次優(比如:將Wiki的大小與LibriSpeech的所有文本相比);
  • 對梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficients)過度依賴。我們尚未看到對短時傅里葉變換(STFT)、梅爾頻率倒譜系數、梅爾濾波器組(Mel-filter banks)以及小波(wavelets)等數據進行合適的比對。在我們試驗的較小數據集中,最終使用什麼並沒有區別,但在實際生活中對於嘈雜的數據結果是不同的;
  • 短時傅里葉變換是最好的。此外,我們無法提供更新的網絡過濾器SincNet)來執行有意義的試驗。

終於有人對語音技術來了次徹頭徹尾的批判!


我們的解決方案也有缺陷

公平起見,我們也涵蓋了一些針對自己的批評:

  • 我們使用了私有數據來訓練模型,儘管與整個數據集的大小相比,私有數據集的大小要小得多,有著數量級的差異,即大約500小時(其中100小時經過手動標註)的“高質量基準”,而公共數據集的大小則是2萬小時;
  • 此外,本文所報告的主要結果僅通過極少量的手動標註就可達成(即,我們僅手動標註了驗證集)。我們使用了這些少量的私有數據主要是因為我們需要在主域裡獲得生產結果;
  • 與我們的數據集不同,由於所有這些研究都是針對自籌資金的商業項目完成的,因此我們不共享訓練管道、特殊的超參數、模型設置與預訓練模型。我們本可以通過非商業許可的方式進行共享,但基於普遍共識,除非政府支持的壟斷企業,否則在俄羅斯知識產權法並不起作用。我們正在尋求資金支持,以開源所有內容,包括將來在其他語言上的工作。

終於有人對語音技術來了次徹頭徹尾的批判!


結論

近來在大眾媒體眼裡,有監督的機器學習氾濫起來。這種情況是由於無法兌現的承諾被人為炒作,從而針對該領域出現了不合理的繁榮和過度投資。

這很糟糕,因為這種情況可能會導致對整個社會有利的領域無法獲得投資。例如無人駕駛卡車公司Starsky的故事就完美證明了這個觀點。他們發佈了可用的產品,但市場由於“AI氾濫”而沒有準備好迎接。借用那篇文章裡的概念和圖像,你可以直觀地通過以下曲線看到社會對於新技術的反應。如果技術達到L1,則會獲得廣泛採用,人人受益。如果可以達到L2,但需要大量的投資和時間,可能只有大型公司或有政府支持的壟斷企業才能收穫其成果。如果是L3的情況,則很可能人們只會在將來才重新啟用這項技術。

終於有人對語音技術來了次徹頭徹尾的批判!


Andrej Karpathy在他的技術講座中解釋:為什麼在自動駕駛汽車行業,獲得最後1%的質量很困難

但是我們應當從中學到什麼?為什麼我們應當關心和參與這些?作為一項科技,語音有很大的潛力將無聊的任務自動化,讓人們可以將精力花在重要的事情上。這些以前也發生過。20年前,這樣的“奇蹟”技術是關係數據庫。請閱讀Benedict Evans關於這個主題的文章。

“關係數據庫是一個新的基本支持層,能夠改變計算所能做的事。在1970年代晚期關係數據庫出現之前,如果你希望數據庫顯示“所有購買此產品並居住在該城市的顧客”信息,則通常需要一個客戶工程項目。數據庫的結構限定:並非任意交叉引用查詢都很容易也很常規。如果想要提問,則需要有人建立。數據庫是保存記錄的系統,關係數據庫則將其轉化為商業智能系統。

這使得數據庫在重要的應用方面有所改變,因此創建了新的用例,並導致全新價值數十億的公司出現。關係數據庫給了我們Oracle,也給了我們SAP公司,而SAP公司及其同儕讓我們擁有了全球化的即時供應鏈,他們又給了我們蘋果和星巴克。到了1990年代,幾乎所有企業的軟件都是關係數據庫了,PeopleSoft和CRM,還有SuccessFactors以及數十家公司幾乎都在使用關係數據庫。沒有人會認為SuccessFactors或Salesforce這樣的公司會因為數據庫都歸屬於Oracle而無法運行。相反,這項技術成為了所有一切的支持層。

因此,藉助這種思考方式來衡量如今的機器學習會是很好的辦法。這是我們對計算機所能應用方式變化的一步進展,也會成為很多不同公司許多不同產品的一部分。最終,幾乎所有一切都會包含機器學習了,而且沒有人會在意。這裡有一個重要的相似之處便是,儘管關係數據庫具有規模效應經濟,還存在有限網絡或“莊家通吃”效應。假如B公司從同一家供應商處採購了相同的數據庫軟件,則A公司所使用的數據庫不會變得更好:如果Caterpillar公司也買了相同的數據庫,那麼Safeway公司的數據庫也不會變得更好。機器學習在實際中的應用與之相似:機器學習是關於數據的,但數據與特定應用高度關聯。更多的筆跡數據會使得手寫識別器效果更好,而更多燃氣渦輪數據會令預測燃氣渦輪故障的系統效果更佳,但彼此之間無法協助作用。數據是不可替代的。”

根據他的概念:“機器學習 = 只是個能回答些問題的堆棧,就像無處不在的關係數據庫”,語音技術的命運只能取決於我們來決定。其利益會由少數選擇後的人群,還是整個社會,尚且不得而知。我們堅定地相信,毫無疑問語音技術會在2-3年之內成為商品。唯一的問題在於,它們會更像是PostgreSQL還是Oracle,或者兩者並存?


分享到:


相關文章: