以我個人的淺見而言,一篇
私信小編007即可獲取數十套PDF哦!
!
還有第四種論文,它確實提出一個idea。這個idea甚至可能是有用的,但它同時也是微不足道的。為了掩蓋這種尷尬的事實,“學術工程”重炮再次上膛,使得論文整體上看起來令人印象深刻。
論文地址:https://arxiv.org/pdf/1807.03247.pdf
只需大約50行python代碼的事情
卷積網絡確實不能很好地解決這個問題,因為卷積神經網絡的原始模型神經認知機(Neocognitron)的設計就是忽視位置的。接下來,作者提出了一個解決方案:在卷積層中添加座標,作為附加的輸入映射。
卷積層和添加座標的CoordConv層
Not-so-Clevr數據集
那麼他們的實驗是否聰明呢?讓我們看看。
論文中使用的Toy tasks
任務之一是基於座標生成一個one-hot圖像,或者基於一個one-hot圖像生成座標。實驗表明,將座標添加到卷積網絡確實可以顯著提高性能。
他們在ImageNet上嘗試了這個座標特徵,將它添加到ResNet-50網絡的第一層。我認為不會有太大的差別,因為ImageNet中的類別讀取不是位置的函數(如果存在這樣的偏差,那麼在訓練期間的數據增強應該完全刪除它)。所以他們用100個GPU來訓練網絡(100個GPU!天啊!)。然而,到小數點後第4位,結果才顯示出一點差異。Facebook、谷歌的人可能會用10000個GPU來複現這個結果吧。這些GPU能不能用來做些更重要的事情?