18年有一篇論文從傅里葉變換的角度解釋了這個問題。
可以通過公式直接推導出來。
神經網絡本身就是一個函數,對其進行傅里葉變換求得頻譜,頻譜中低頻分量就是變化平滑的部分,高頻分量就是變化敏感的部分。
過擬合普遍接受的定義中,模型對於微小擾動的反饋差異大實際就是一個過擬合的表現。
也就是高頻分量不能多。
根據雅各比矩陣,神經網絡這個函數的高頻分量存在上界,上界和譜範數正相關。
譜範數逆變換回時域,可求得和參數範數正相關。
L2正則就是將參數的L2範數加入loss裡求最優化,故而限制了神經網絡學到高頻分量,更傾向於一個低頻的平滑的函數,從而緩解過擬合。
附論文:On the Spectral Bias of Deep Neural Networks
https://arxiv.org/abs/1806.08734v1
閱讀更多 Aluea 的文章