03.27 Ian Goodfellow:作為一名審稿人,我是這樣看論文的

(文章中的“我”均為GAN之父Ian Goodfellow)

最近我看到很多類似“資深審稿人只看那些一眼看上去就是高質量的論文”或者“一定要記得bid,不然你只會得到劣質論文”這樣的說法。作為一名資深審稿人,我從來不苛求一定要得到好論文。審稿人可以bid,但是你應該明白自己的目標是什麼。

Ian Goodfellow:作為一名審稿人,我是這樣看論文的

我個人有兩個目的:

  • 保證文獻的高質量;

  • 減少作為一名審稿人需要完成的工作量。

基於這些目的,我主要爭取的是那些可能需要被拒的論文,而被拒的原因其他審稿人可能發現不了。

有些很忙的資深審稿人可能只會bid那些質量明顯很差的論文以減少工作量。另外,審稿人還有些其他的目的,例如比其他人更早地瞭解到令人興奮的研究,確保優秀的研究成果不被拒絕,或者審查他們本領域的成果等等。

但是也有些審稿人“不壞好心”,例如如果與某人有不愉快的經歷,他就會申請要這篇論文然後將其拒絕。

如何審閱一篇論文的進步之處?

到目前為止,已經有許多關於生成對抗網絡(GANs)如何工作的理論和實踐研究了,同時還有許多用GANs生成新奇有趣的項目的論文。同樣還有許多論文,將GANs作為大型系統的一部分,比如將GANs用於半監督學習、差分隱私、數據集增強等等。但是這些都不是這篇文章的目的。

這篇文章是關於評估一些新方法,這些方法能讓GANs生成或訓練更好地樣本。

首先,我會推薦對GANs感興趣的讀者閱讀Are GANs Created Equal這篇論文,它解釋了為什麼該領域的實證研究很難實現,以及正確的做法。

另外一篇幫助瞭解背景的論文是A note on the evaluation of generative models,這解釋了為什麼用好的樣本和不良的可能性能生成模型,以及關於生成模型的指標問題。

GAN相關論文的一個難點是評估其新穎性。有很多關於GAN的改善提議,但是我們很難跟蹤這些改進並判斷它是否是真的新方法。我們要在谷歌裡用4到5種不同的方法搜索,看這個想法是否被人提過。

這裡有一個能夠很好了解各種GAN變體的資源:

Ian Goodfellow:作為一名審稿人,我是這樣看論文的

如果我提出了一個不是那麼新的方法,這篇論文仍然是值得看的,但是審稿人必須確保這篇論文確切地瞭解了先前的知識。

隨著各種標準層出不窮,Frèchet初始距離(FID)可能是目前為止評估通用GAN模型性能最好的標準。對於ImageNet以外的數據集,也可以用除了Inception之外的模型去定義距離。

一些研究特殊案例的論文可能包括其他標準,但是如果一篇論文連FID都沒有的話,我倒是想看看它這樣做的原因。

很多論文都鼓勵讀者通過查看樣本形成自己對於這種方法的看法,這通常是一個不好的跡象。據我瞭解其中一個重要原因是從某一領域生成樣本,這是以前的技術無法解決的。

例如,用單個GAN生成ImageNet樣本非常困難,許多論文也證實了這麼做基本會失敗。但是SN-GAN成功地從所有類別中製作出了可識別的樣本,所以也證明了SN-GAN是一項重大改進。(不過這種改進可能源自於其中的某些因素,而不是論文所提出的方法,例如新的、更大的架構等)

許多論文展示了來自CIFAR-10或CelebA等數據集的樣本,並讓審稿人留下了深刻的印象。對於這些論文,我從來不知道我要尋找什麼。任務大部分都已經解決了,剩下的沒有給我任何信號。

另外,面對只有一點點缺陷的圖像,我不知道怎麼將它與其他圖像進行排序。能不能加一點checkboard

因此,我通常不會用CelebA或CIFAR-10的樣本檢查試驗方法是否有效。

審稿人應該對應用自己標準的人保持警惕,一個微小的調整就有可能讓深度學習算法失敗。而且作者習慣性地不會仔細檢查自己的標準。

通常來說,一篇論文起碼要採用一個出現在另一篇論文中的標準,並且另一篇論文的作者在此基礎上獲得了好的結果。這種評估方法至少是激勵相容的。

審稿人應該檢查其他論文是否執行了相同任務,並檢查它們的分數。我們經常會看到引用某篇論文,然後展示出比原論文中更糟糕的圖像或分數。

當然其他領域也會在標準上遇到麻煩,具體看下圖。

Ian Goodfellow:作為一名審稿人,我是這樣看論文的

但是我認為這對GAN論文特別不利。

有時,如果一篇論文研究一項新任務或者此前的研究很少評估過的方面,作者有必要實施他們自己定的標準。在這種情況下,至少論文的一半篇幅都要用來證明該標準是正確的。

另外,解釋超參數的來源也非常重要。通常新方法看起來還有待改進的原因就是作者花了太多時間解釋在新方法中如何優化超參數。

判斷一篇GAN論文好的標準是什麼?

許多深度學習算法,特別是GANs和強化學習,每次運行時都會得到非常不同的結果。論文應該公佈同樣的超參數下,至少三次運行結果,以便了解算法的隨機性。

許多看起來似乎有進步的論文只是展示了新方法較好的運行結果,以及舊方法糟糕的結果。

即使沒有明顯的證據證明精心挑選實驗結果,論文往往也會展示新方法生成的單一學習曲線和基準的單一曲線,兩條曲線非常接近,以至於讓我認為同種方法運行兩次得到的結果會大不相同。

在解釋如何優化超參數時,重要的是搞清楚它們是來優化多次運行的最大值還是最小值或是平均值。

還有一點需要記住的是,有人會把好方法寫成一篇爛論文。有時我們會看到一篇論文,介紹的方法的確很好,但裡面出現了很多沒有科學支持的論斷。審稿人應該對此有所判斷。

如果你是某會議的領域主席,我強烈建議讓目標審稿人與論文領域相匹配,沒有人是全能的GAN專家。例如,如果你收到一篇帶有編碼器的GANs論文,可以試著請一名ALI、BiGAN、alpha-GAN或AVB領域的作者來審稿。

如果你審閱的是關於mode collapse的論文,並且作者認為mode collapse意味著記住訓練樣本的一個子集,請謹慎,因為這種情況通常比較麻煩。

例如,mode collapse通常會擾亂與數據不一致的garbage points,這些點往往會在訓練中移動。Mode collapse也可以是圖案或背景中非常細微的重複,但人眼看不出差別。

最後,論文的副標題不要太多……


分享到:


相關文章: