本文為大家梳理深度學習模型近年來的重要進展，文末附梳理圖~

唐傑老師學生幫忙整理的Deep Learning模型最近若干年的重要進展。有4條脈絡，整理很不錯。分享一下。

track1 cv/tensor

1943年出現雛形，1958年研究認知的心理學家Frank發明了感知機，當時掀起一股熱潮。後來Marvin Minsky（人工智能大師）和Seymour Papert發現感知機的缺陷：不能處理異或迴路、計算能力不足以處理大型神經網絡。停滯！

1986年hinton正式地提出反向傳播訓練MLP，儘管之前有人實際上這麼做。

1979年，Fukushima 提出Neocognitron，有了卷積和池化的思想。

1998年，以Yann LeCun為首的研究人員實現了一個七層的卷積神經網絡LeNet-5以識別手寫數字。

後來svm興起，這些方法沒有很受重視。

2012年，Hinton組的AlexNet在ImageNet上以巨大優勢奪冠，興起深度學習的熱潮。其實Alexnet是一個設計精巧的CNN，加上relu、dropout等技巧，並且更大。

這條思路被後人發展，出現了vgg、GooLenet等。

2016年，青年計算機視覺科學家何愷明在層次之間加入跳躍連接，Resnet極大增加了網絡深度，效果有很大提升。一個將這個思路繼續發展下去的是去年cvpr best paper densenet。

cv領域的特定任務出現了各種各樣的模型（Mask-RCNN等），這裡不一一介紹。

2017年，hinton認為反省傳播和傳統神經網絡有缺陷，提出Capsule Net。但是目前在cifar等數據集上效果一半，這個思路還需要繼續驗證和發展。

track2 生成模型

傳統的生成模型是要預測聯合概率分佈P(x,y)。

rbm這個模型其實是一個基於能量的模型，1986年的時候就有，他在2006年的時候重新拿出來作為一個生成模型，並且將其堆疊成為deep belief network，使用逐層貪婪或者wake-sleep的方法訓練，不過這個模型效果也一般現在已經沒什麼人提了。但是從此開始hinton等人開始使用深度學習重新包裝神經網絡。

Auto-Encoder也是上個世紀80年代hinton就提出的模型，此時由於計算能力的進步也重新登上舞臺。bengio等人又搞了denoise Auto-Encoder。

Max welling等人使用神經網絡訓練一個有一層隱變量的圖模型，由於使用了變分推斷，並且最後長得跟auto-encoder有點像，被稱為Variational auto-encoder。此模型中可以通過隱變量的分佈採樣，經過後面的decoder網絡直接生成樣本。

GAN是2014年提出的非常火的模型，他是一個隱的生成模型，通過一個判別器和生成器的對抗訓練，直接使用神經網絡G隱式建模樣本整體的概率分佈，每次運行相當於從分佈中採樣。

DCGAN是一個相當好的卷積神經網絡實現，WGAN是通過維爾斯特拉斯距離替換原來的JS散度來度量分佈之間的相似性的工作，使得訓練穩定。PGGAN逐層增大網絡，生成機器逼真的人臉。

track3 sequence learning

1982年出現的hopfield network有了遞歸網絡的思想。1997年Jürgen Schmidhuber發明LSTM，並做了一系列的工作。但是更有影響力的是2013年還是hinton組使用RNN做的語音識別工作，比傳統方法高出一大截。

文本方面bengio在svm最火的時期提出了一種基於神經網絡的語言模型，後來google提出的word2vec也有一些反向傳播的思想。在機器翻譯等任務上逐漸出現了以RNN為基礎的seq2seq模型，通過一個encoder把一句話的語義信息壓成向量再通過decoder輸出，當然更多的要和attention的方法結合。

後來前幾年大家發現使用以字符為單位的CNN模型在很多語言任務也有不俗的表現，而且時空消耗更少。self-attention實際上就是採取一種結構去同時考慮同一序列局部和全局的信息，google有一篇聳人聽聞的attention is all you need的文章。

track4：deep reinforcement learning

這個領域最出名的是deep mind，這裡列出的David Silver是一直研究rl的高管。

q-learning是很有名的傳統rl算法，deep q-learning將原來的q值表用神經網絡代替，做了一個打磚塊的任務很有名。後來有測試很多遊戲，發在Nature。這個思路有一些進展double dueling，主要是Qlearning的權重更新時序上。

DeepMind的其他工作DDPG、A3C也非常有名，他們是基於policy gradient和神經網絡結合的變種（但是我實在是沒時間去研究）。

一個應用是AlphaGo大家都知道，裡面其實用了rl的方法也有傳統的蒙特卡洛搜索技巧。Alpha Zero 是他們搞了一個用alphago框架打其他棋類遊戲的遊戲，吊打。

（點擊查看高清大圖）