「直播」馬騰宇，陶大程在 ICLR 2020 上做了什麼研究？頭條網

「直播」馬騰宇，陶大程在 ICLR 2020 上做了什麼研究？

2021-04-03 18:38:46 佚名

ICLR 2020 會議召開進入倒計時。

但AI科技評論「ICLR 系列直播」仍不間斷，且頻次逐漸加大。

為滿足各位同學的需求，本週五我們將舉辦兩場直播……嗯，都是大神團隊！

在4月24日（本週五）上午10:00整，我們將推出馬騰宇等人在 ICLR 2020 上發表工作的直播分享。分享嘉賓為羅雨屏博士，來自普林斯頓大學，Sanjeev Arora 教授的學生，是馬騰宇的直系師弟。這篇論文的三位作者分別來自普林斯頓大學、加州伯克利分校和斯坦福大學。

2.在4月24日（本週五）晚 20:00整，我們推出的直播分享，為國際著名學者陶大程教授團隊發表在ICLR 2020 上的工作。分享嘉賓為陶大程學生何鳳翔博士，來自悉尼大學，目前是優必選悉尼大學人工智能中心成員。

直播內容介紹如下：【直播一】直播主題：

通過負採樣從專家數據中學習自我糾正的策略和價值函數直播時間：2020年4月24日（週五）上午 10:00 整論文名稱：Learning Self-correctable Policies And Value Functions From Demonstrations With Negative Sampling.分享人：羅雨屏博士簡介：普林斯頓大學計算機系在讀博士，導師Sanjeev Arora 教授，研究方向為機器學習、強化學習。摘要：模仿學習（imitation learning）初始化後再強化學習是一個能節約樣本的解決複雜的控制任務的方法。然而從樣例數據中學習會有一個嚴重的問題：協變量偏差，這會讓學到的策略有複合誤差。我們引入了保守推斷價值函數這個概念，能保證得到一個自糾正的策略。我們設計了一個算法：負採樣價值迭代，能夠有效學出這樣能保守推斷的價值函數。負採樣價值迭代能夠在機器人模擬環境中糾正行為克隆策略的錯誤。我們還提出了一個算法，用負採樣價值迭代來初始化強化學習，該算法對比之前的算法，樣本效率有了明顯的提升。

【直播二】直播主題：分段線性激活函數塑造了神經網絡損失曲面直播時間：2020年4月24日（週五）晚 20:00 整論文：Piecewise Linear Activations Substantially Shape the Loss Surfaces of Neural Networks主講人：何鳳翔博士簡介：澳大利亞悉尼大學一年級博士生，優必選悉尼大學人工智能中心成員，師從陶大程院士。研究方向為機器學習理論及其應用。摘要：神經網絡損失曲面幾何結構極其複雜，但可能是深度學習理論的基礎。講者將分享最新的研究成果，分析分段線性激活函數如何塑造神經網絡損失曲面。