「直播」马腾宇,陶大程在 ICLR 2020 上做了什么研究?

「直播」马腾宇,陶大程在 ICLR 2020 上做了什么研究?

ICLR 2020 会议召开进入倒计时。

但AI科技评论 「ICLR 系列直播」仍不间断,且频次逐渐加大。

为满足各位同学的需求,本周五我们将举办两场直播……嗯,都是大神团队!

1.

4月24日(本周五)上午10:00整,我们将推出马腾宇等人在 ICLR 2020 上发表工作的直播分享。分享嘉宾为罗雨屏博士,来自普林斯顿大学,Sanjeev Arora 教授的学生,是马腾宇的直系师弟。这篇论文的三位作者分别来自普林斯顿大学、加州伯克利分校和斯坦福大学。

「直播」马腾宇,陶大程在 ICLR 2020 上做了什么研究?

2.4月24日(本周五)晚 20:00整,我们推出的直播分享,为国际著名学者陶大程教授团队发表在ICLR 2020 上的工作。分享嘉宾为陶大程学生何凤翔博士,来自悉尼大学,目前是优必选悉尼大学人工智能中心成员。

「直播」马腾宇,陶大程在 ICLR 2020 上做了什么研究?

直播内容介绍如下:【直播一】直播主题:

通过负采样从专家数据中学习自我纠正的策略和价值函数直播时间:2020年4月24日(周五)上午 10:00 整论文名称:Learning Self-correctable Policies And Value Functions From Demonstrations With Negative Sampling.分享人:罗雨屏博士简介:普林斯顿大学计算机系在读博士,导师Sanjeev Arora 教授,研究方向为机器学习、强化学习。摘要:模仿学习(imitation learning)初始化后再强化学习是一个能节约样本的解决复杂的控制任务的方法。然而从样例数据中学习会有一个严重的问题:协变量偏差,这会让学到的策略有复合误差。我们引入了保守推断价值函数这个概念,能保证得到一个自纠正的策略。我们设计了一个算法:负采样价值迭代,能够有效学出这样能保守推断的价值函数。负采样价值迭代能够在机器人模拟环境中纠正行为克隆策略的错误。我们还提出了一个算法,用负采样价值迭代来初始化强化学习,该算法对比之前的算法,样本效率有了明显的提升。

「直播」马腾宇,陶大程在 ICLR 2020 上做了什么研究?

【直播二】直播主题:分段线性激活函数塑造了神经网络损失曲面直播时间:2020年4月24日(周五)晚 20:00 整论文:Piecewise Linear Activations Substantially Shape the Loss Surfaces of Neural Networks主讲人:何凤翔博士简介:澳大利亚悉尼大学一年级博士生,优必选悉尼大学人工智能中心成员,师从陶大程院士。研究方向为机器学习理论及其应用。摘要:神经网络损失曲面几何结构极其复杂,但可能是深度学习理论的基础。讲者将分享最新的研究成果,分析分段线性激活函数如何塑造神经网络损失曲面。

「直播」马腾宇,陶大程在 ICLR 2020 上做了什么研究?

如何参加?

「直播」马腾宇,陶大程在 ICLR 2020 上做了什么研究?

疫情拉开了大家的距离,但是学术交流是不会就因为疫情被阻挡的,我们愿架起这座学者之间的桥梁,以最短路径,让更多学者能更快的参与其中,促进学术交流,让知识真正流动。为此,AI科技评论出品【ICLR 2020】专题,约你“云参会”!

「直播」马腾宇,陶大程在 ICLR 2020 上做了什么研究?


分享到:


相關文章: