伯克利與MIT最新研究:CIFAR-10分類器能否泛化到CIFAR-10中?

伯克利與MIT最新研究:CIFAR-10分類器能否泛化到CIFAR-10中?

作者:Benjamin Recht、Rebecca Roelofs、Ludwig Schmidt、Vaishaal Shankar

「雷克世界」編譯:嗯~是阿童木呀

導語:可以這樣說,對機器學習的進展進行正確評估是很微妙的。畢竟,學習算法的目標是生成一個能夠很好地泛化到不可見數據中的模型。因此,為了理解當前機器學習進展的可靠性如何,加州大學伯克利分校(UC Berkeley)和麻省理工學院(MIT)的科學家們設計並開展了一種新的再現性研究。其主要目標是衡量當代分類器從相同分佈中泛化到新的、真正不可見數據中的程度如何。

可以這樣說,機器學習目前主要是由聚焦於一些關鍵任務的改進上的實驗性研究所主導的。但是,性能表現最佳的模型的令人印象深刻的準確性是值得懷疑的,因為用相同的測試集來選擇這些模型已經很多年了。為了理解過度擬合(overfitting)的危險,我們通過創建一個真正看不見的圖像的新測試集來衡量CIFAR-10分類器的準確性。儘管我們確保新測試集儘可能接近原始數據分佈,但我們發現大部分深度學習模型的精確度大幅下降(4%至10%)。然而,具有較高原始精確度的較新模型顯示出較小的下降和較好的整體性能,這表明這種下降可能不是由於基於適應性的過度擬合造成的。相反,我們將我們的結果視為證據,證明當前的準確性是脆弱的,並且易受數據分佈中的微小自然變化的影響。

在過去五年中,機器學習已經成為一個決定性的實驗領域。在深度學習領域大量研究的推動下,大部分已發表的論文都採用了一種範式,即一種新的學習技術出現的主要理由是其在幾個關鍵基準上的改進性性能表現。與此同時,對於為什麼現在提出的技術相對於之前的研究來說具有更可靠的改進,幾乎沒有什麼解釋。相反,我們的進步意識很大程度上取決於少數標準基準,如CIFAR-10、ImageNet或MuJoCo。這就提出了一個關鍵問題:

我們目前在機器學習方面的進展有多可靠?

可以這樣說,對機器學習的進展進行正確評估是很微妙的。畢竟,學習算法的目標是生成一個能夠很好地泛化到看不見的數據中的模型。由於我們通常無法訪問真實數據分佈,因此替代性地,我們會在單獨的測試集上評估一個模型的性能。而只要我們不使用測試集來選擇我們的模型,這就確實是一個有原則的評估協議。

伯克利與MIT最新研究:CIFAR-10分類器能否泛化到CIFAR-10中?

圖1:從新的和原始的測試集中進行的類均衡隨機抽取結果。

不幸的是,我們通常對相同分佈中的新數據的訪問受限。現如今,人們已經普遍接受在整個算法和模型設計過程中多次重複使用相同的測試集。這種做法的示例非常豐富,包括在單一發布產品中調整超參數(層數等),並且在其他研究人員的各種發佈產品的研究上進行架構構建。儘管將新模型與以前的結果進行比較是自然而然的願望,但顯然目前的研究方法破壞了分類器獨立於測試集的關鍵性假設。這種不匹配帶來了明顯的危險,因為研究社區可以很容易地設計一些模型,但這些模型只能在特定的測試集上運行良好,實際上卻不能推泛化到新的數據中。

因此,為了理解當前機器學習進展的可靠性如何,我們設計並開展了一種新的再現性研究。其主要目標是衡量當代分類器從相同分佈中泛化到新的、真正不可見的數據中的程度如何。我們聚焦於標準的CIFAR-10數據集,因為它的透明性創建過程使其特別適合於此任務。而且,CIFAR-10現在已經成為近10年來研究的熱點。由於這個過程的競爭性,這是一個很好的測試案例,用於調查適應性是否導致過度擬合。

過度擬合

我們的實驗是否顯示過度擬合?這可以說是對我們的結果進行解釋時的主要問題。準確地說,我們首先定義過度擬合的兩個概念:

•訓練集過度擬合:量化過度擬合的一種方法是確定訓練精確度和測試精確度之間的差異。需要注意的是,我們實驗中的深度神經網絡通常達到100%的訓練精確度。所以這種過度擬合的概念已經出現在現有的數據集上。

•測試集過度擬合:過度擬合的另一個概念是測試精確度和基礎數據分佈的精確度之間的差距。通過將模型設計選擇適配於測試集,我們關心的是我們隱含地將模型擬合到測試集。然後,測試精確度作為在真正看不見的數據上性能的精確衡量,將失去其有效性。

伯克利與MIT最新研究:CIFAR-10分類器能否泛化到CIFAR-10中?

圖2:新測試集的模型精確度VS原始測試集的模型精確度

由於機器學習的總體目標是泛化到看不見的數據中,所以我們認為,第二個概念,通過測試集自適應性事物過度擬合更為重要。令人驚訝的是,我們的研究結果顯示在CIFAR-10上沒有出現這種過度擬合的跡象。儘管在這個數據集上有多年的競爭自適應性,但真正持有的數據並沒有停滯不前。事實上,在我們的新測試集中,性能最好的模型要比更多已建立的基線更具優勢。儘管這種趨勢與通過適應性的過度擬合所表明的相反。雖然一個確鑿的圖片需要進一步的複製實驗,但我們認為我們的結果是支持基於競爭的方法來提高精確度分數的。

我們注意到,可以閱讀Blum和Hardt的Ladder算法的分析來支持這一說法。事實上,他們表明,通過加入對標準機器學習競賽的小修改,可以避免那種通過積極的適應性來實現的過度擬合。我們的結果顯示,即使沒有這些修改,基於測試誤差的模型調整也不會導致標準數據集的過度擬合。

分佈位移(distribution shift)

儘管我們的結果不支持基於適應性的過度擬合的假設,但仍需要對原始精確度分數和新精確度分數之間的顯著差距進行解釋。我們認為這種差距是原始CIFAR-10數據集與我們新測試集之間的小分佈位移的結果。儘管我們努力複製CIFAR-10的創建過程,但這種差距很大,影響了所有模型,從而出現這種情況。通常,對於數據生成過程中的特定變化(例如,照明條件的變化)或對抗性環境中的最壞情況攻擊,我們就會研究分佈位移。我們的實驗更加溫和,並沒有帶來這些挑戰。儘管如此,所有模型的精確度下降了4-15%,誤差率的相對增加高達3倍。這表明目前的CIFAR-10分類器難以泛化到圖像數據的自然變化中。

未來的研究

具體的未來實驗應該探索競爭方法在其他數據集(例如ImageNet)和其他任務(如語言建模)上是否同樣對過度擬合具有復原性。這裡的一個重要方面是確保新測試集的數據分佈儘可能地接近原始數據集。此外,我們應該瞭解什麼類型的自然發生的分佈變化對圖像分類器是具有挑戰性的。

更廣泛地說,我們將我們的結果看作是對機器學習研究進行更全面評估的動機。目前,主要的範式是提出一種新的算法並評估其在現有數據上的性能。不幸的是,這些改進在多大程度上可以進行廣泛適用,人們往往知之甚少。為了真正理解泛化問題,更多的研究應該收集有洞察力的新數據並評估現有算法在這些數據上的性能表現。由於我們現在在開源代碼庫中擁有大量預先註冊的分類器,因此此類研究將符合公認的統計有效研究標準。重要的是要注意區分機器學習中的當前可再現性性努力,其通常集中在計算的再現性上,即在相同的測試數據上運行發佈的代碼。相比之下,像我們這樣的泛化實驗,通過評估分類器在真實新數據(類似於招募新參與者進行醫學或心理學的再現性實驗)上的性能表現來關注統計再現性。

原文鏈接:https://arxiv.org/pdf/1806.00451.pdf


分享到:


相關文章: