2019年機器學習網紅論文Top 14

人工智能領域每年都會發表超過14000篇的論文,該領域幾乎吸引了全球最具生產力的研究團隊,諸如NeurIPS、ICML、ICLR、ACL和MLD等人工智能會議每年都會吸引大量有趣的論文。


在2019年,各個大會的論文投稿數量有所增加。


近日,國外媒體精選了2019年的Top網紅論文,包括我們耳熟能詳的ALBERT、EfficientNet、S3GAN、Weight Agnostic Neural Network等等,跟圖靈君來一起回顧下吧!


Single Headed Attention RNN: Stop Thinking With Your Head

Stephen Merity, November 2019


區別於現在主流的框架比拼算力,本文重新思考是不是可以通過lstm 和 單頭的attention就可以在現在的數據集上完成大型框架類似的指標。


作者在文章裡花了很大的篇幅去討論,如何會去思考來構建sha-rnn這個模型。他類比了計算機的發展史和摩爾定律,討論了語言模型和tokern。作者認為減少緩存,讓語言模型的實現可以跑在較低的資源上,不失為一個值得去研究的技術方向,就像計算機發展當年的故事,如果所有的研究都投入在集群和大型機,怎麼會有二十世紀末期微機的大行其道。


作者認為,即使是transformer已經是主流,也可以繼續嘗試用lstm + attention,通過精心的設計,仔細的調差,一樣可以用顯存消耗較小的模型達到較好的效果。


EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Mingxing Tan and Quoc V. Le, November 2019


開發一個卷積神經網絡(CNN)的成本通常是固定的。在獲得更多資源時,我們通常會按比例進行擴展,以便獲得更優的準確性。例如,ResNet可以通過增加層數從ResNet-18擴展到ResNet-200,最近,GPipe 網絡通過將基準 CNN 模型擴展四倍,在 ImageNet Top-1 上獲得了 84.3% 的準確度。在模型擴展方面的操作通常是任意增加 CNN 的深度或寬度,或者在更大輸入圖像分辨率上進行訓練和評估。


雖然這些方法確實提高模型了準確性,但它們通常需要繁瑣的手工調整,而且還不一定能找到最優的結構。換言之,我們是否能找到一種擴展設計方法來獲得更好的準確性和效率呢?


在 Google 的 ICML 2019 論文“EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks”中,作者提出了一種新的模型尺度縮放方法,該方法使用簡單且高效的複合係數以更結構化的方式來擴展 CNN。與任意縮放網絡尺寸的傳統方法(例如寬度、深度和分辨率)不同,本文使用一個固定的縮放係數集合,均勻地縮放每個維度。藉助這種新的縮放方法和在AutoML 方面的最新進展,Google 開發了一系列稱為 EfficientNets 的模型,它超越了 SOTA 的精度,並且將效率提高了10倍(更小、更快)。


Deep Double Descent By OpenAI

Mikhail Belkin, Daniel Hsu, Siyuan Ma, Soumik Mandal, September 2019


在本文中,研究者證明,各種現代深度學習任務都表現出「雙重下降」現象,並且隨著模型尺寸的增加,性能首先變差,然後變好。此外,他們表明雙重下降不僅作為模型大小的函數出現,而且還可以作為訓練時間點數量的函數。


研究者通過定義一個新的複雜性度量(稱為有效模型複雜性,Effective Model Complexity)來統一上述現象,並針對該度量推測一個廣義的雙重下降。此外,他們對模型複雜性的概念使其能夠確定某些方案,在這些方案中,增加(甚至四倍)訓練樣本的數量實際上會損害測試性能。


精選 | 2019年機器學習網紅論文Top 14


The Lottery Ticket Hypothesis

Jonathan Frankle, Michael Carbin, March 2019


神經網絡剪枝技術可將網絡參數量減少 90%,進而在不犧牲準確率的前提下減少存儲需求、提升推斷的計算性能。然而現有經驗表明,剪枝生成的解析架構從一開始就很難訓練,儘管解析架構同樣可以提升訓練性能。


作者發現,標準的剪枝技術會自然地發現子網絡,這些子網絡經過初始化後能夠有效進行訓練。基於這些結果,我們提出了「彩票假設」(lottery ticket hypothesis):密集、隨機初始化的前饋網絡包含子網絡(「中獎彩票」),當獨立訓練時,這些子網絡能夠在相似的迭代次數內達到與原始網絡相當的測試準確率。


「中獎彩票」贏得了「初始化彩票」:它們的連接具有使訓練非常高效的初始權重。我們提出了一種識別中獎彩票的算法,並用一系列實驗來支持彩票假設以及這些偶然初始化的重要性。我們發現在 MNIST 和 CIFAR10 數據集上,「中獎彩票」網絡的大小不及全連接、卷積前饋架構的 10%-20%。而且,這種「中獎彩票」比原始網絡學習速度更快,測試準確率也更高。


On The Measure Of Intelligence

Francois Chollet, November 2019


這篇論文總結和批判性地評價了智能和評估方法的定義,同時明確了智能的歷史概念。


作者,也就是keras的創建者,介紹了一個基於算法信息論的智能的正式定義,並使用這個定義,他還提出了一套通用AI基準應該是什麼樣子的準則。


Zero-Shot Word Sense Disambiguation Using Sense Definition Embeddings via IISc Bangalore & CMU

Sawan Kumar, Sharmistha Jat, Karan Saxena and Partha Talukdar, August 2019


使用感知定義嵌入的zero-shot詞意義消歧。


本文的創新之處在於:

  • 一種新的詞義消歧系統,聚焦提高罕見單詞和未見過的單詞的表現
  • sense selection任務作為一項持續任務對待,用到了資源組合
  • 結果富有洞察力,提高了最好水平


Deep Equilibrium Models

Shaojie Bai, J. Zico Kolter and Vladlen Koltun, October 2019


卡耐基梅隆大學(Carnegie Mellon University)的研究人員注意到,許多現有的深層序列模型的隱含層都收斂於某個定點,因此他們提出了一種利用深層均衡模型(deep equilibrium model, DEQ)對序列數據建模的新方法。


使用這種方法,在這些網絡中訓練和預測只需要恆定的記憶,而不管網絡的有效“深度”。


IMAGENET-Trained CNNs are Biased Towards Texture

Robert G, Patricia R, Claudio M, Matthias Bethge, Felix A. W and Wieland B, September 2019


卷積神經網絡(CNNs)通常被認為是通過學習日益複雜的物體形狀表示來識別物體。在這篇文章中,作者評價了CNNs和人類觀察者在具有紋理-形狀提示衝突的圖像上的表現。


他們表明,經過ImageNNet訓練的CNN更傾向於識別紋理而不是形狀,這與人類行為證據形成了鮮明對比。


精選 | 2019年機器學習網紅論文Top 14


A Geometric Perspective on Optimal Representations for Reinforcement Learning

Marc G. B , Will D , Robert D , Adrien A T , Pablo S C , Nicolas Le R , Dale S, Tor L, Clare L, June 2019


強化學習的自動任務:表示學習是和適應環境的任務相關的;這篇論文給出了任務相關的表示學習的理論證明。


論文核心觀點如下:

Our work opens up the possibility of automatically generating auxiliary tasks in deep reinforcement learning, analogous to how deep learning itself enabled a move away from hand-crafted features.


通過任務可以學到很好的表示。


Weight Agnostic Neural Networks

Adam Gaier & David Ha, September 2019


這個網絡的確是一個具有顛覆性結構的神經網絡,號稱“不需要經過訓練就可以達到很好的預測效果"。


文章開篇向我們提出一個問題:現在的所有神經網絡結構每一個都大相徑庭,針對不同的任務會有不同的表現。那些神經網絡中神經元與神經元之間相連的權重究竟有多重要呢?

作者把構成神經網絡的兩個元素抽離出來:一個是權重,另一個是結構。論文主要研究的問題便是:找到一些特定過的神經網絡結構,他們的神經元之間的連接權重是共享的且與生俱來固定的,並讓這些神經網絡模型在沒有修改任何權重(即沒有訓練)的條件下完成一些增強學習任務。


Stand-Alone Self-Attention in Vision Models

Prajit Ramachandran, Niki P, Ashish Vaswani, Irwan Bello Anselm Levskaya, Jonathon S, June 2019


谷歌研究和谷歌大腦團隊提出針對視覺任務的獨立自注意力(stand-alone self-attention)層,用它創建的純注意力(fully attentional)模型,在ImageNet分類任務和COCO目標檢測任務中都超越了用卷積的基準模型,而且用了更少的浮點運算和更少的參數量。


High-Fidelity Image Generation With Fewer Labels

Mario Lucic, Michael Tschannen, Marvin Ritter, Xiaohua Z, Olivier B, and Sylvain Gelly, March 2019


谷歌在其論文中,提出了一種新的GAN方法S3GAN。實驗結果表明,S3GAN在僅用10%的標記數據前提下,在128×128的分辨率情況下,超越了當前生成圖像最逼真的BigGAN達20%。FID(Frechet Inception Distance)得分上,S3GAN是8.0分,而BigGAN是8.4分,分值越低,虛假程度越逼真,越能夠欺騙人類,S3GAN略微一籌。


精選 | 2019年機器學習網紅論文Top 14


ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin G, Piyush Sharma and Radu S, September 2019

Bert在2018一經提出,提高了很多NLP任務的baseline,但是Bert模型參數量大,在推斷資源有限的情況下,應該怎麼樣用Bert這種好的預訓練模型。


為了解決問題,本文提出了兩種參數簡化的方法,加速Bert的預訓練和推斷;並且作者提出了一個新的自監督的loss函數,SOP學習到句子間的內部特徵。作者提出的模型,參數量更小,並且在GLUE,RACE等NLP 任務上達到最佳性能。


GauGANs-Semantic Image Synthesis with Spatially-Adaptive Normalization

Taesung Park, Ming-Yu Liu, Ting-Chun Wang and Jun-Yan Zhu, November 2019


英偉達出品,作者開門見山指出算法的創新點,提出了一種新的空間自適應歸一化層(Spatially-Adaptive Normalization Layer),可以簡單且有效地輸出如同真實照片的合成圖像,而該算法的輸入僅是一張語義分割的mask圖。在GauGAN之前的合成算法通常直接將語義mask作為網絡的輸入,然後經過多層卷積、歸一化層和非線性層進行處理。


而傳統的歸一化層(normalization layer)傾向於“抹除”語義信息,導致生成模型得到的是局部最優解。為了解決這個問題,GauGAN直接使用語義mask對normalization layer的輸出激活值進行建模,即提出的空間自適應層。


原文鏈接:

https://analyticsindiamag.com/best-machine-learning-papers-2019-nips-icml-ai/


視頻點擊預測大賽火熱進行中


3萬元獎金、證書、實習、就業機會已準備就位,快叫上小夥伴一起來組隊參賽吧。

賽題:希望參賽者通過已有的用戶信息、視頻信息以及他們是否觀看過某些視頻,來預測我們推薦給這些用戶的視頻對方是否會觀看。

個人、高等院校、科研單位、互聯網企業、創業團隊、學生社團等人員均可報名。

報名及組隊時間:即日起至2020年2月1日


報名入口:


http://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch


分享到:


相關文章: