傅里葉變換:在機器學習中,L2正則化為什麼能夠緩過擬合?


傅里葉變換:在機器學習中,L2正則化為什麼能夠緩過擬合?

18年有一篇論文從傅里葉變換的角度解釋了這個問題。

可以通過公式直接推導出來。

神經網絡本身就是一個函數,對其進行傅里葉變換求得頻譜,頻譜中低頻分量就是變化平滑的部分,高頻分量就是變化敏感的部分。

過擬合普遍接受的定義中,模型對於微小擾動的反饋差異大實際就是一個過擬合的表現。

也就是高頻分量不能多。


根據雅各比矩陣,神經網絡這個函數的高頻分量存在上界,上界和譜範數正相關。

譜範數逆變換回時域,可求得和參數範數正相關。

L2正則就是將參數的L2範數加入loss裡求最優化,故而限制了神經網絡學到高頻分量,更傾向於一個低頻的平滑的函數,從而緩解過擬合。

附論文:On the Spectral Bias of Deep Neural Networks

https://arxiv.org/abs/1806.08734v1


分享到:


相關文章: