ICLR 2019最佳论文解析:神经网络制霸

作者:SHUBHAM SINGH
编译:ronghuaiyang

导读

给大家解析一下ICLR 2019的最佳论文,非常有创造性的工作!

介绍

我喜欢阅读和解析机器学习研究论文。有非常多的令人难以置信的信息要解析,这是一个数据科学家的金矿!当无与伦比的ICLR 2019(学习表征国际会议)会议上公布了最好的论文时,我非常激动。

我迫不及待地想要得到它们。

然而,大多数的研究论文都很难理解。它们是针对特定的读者(研究人员)编写的,因此它们假定读者具有一定的知识水平。

ICLR 2019最佳论文解析:神经网络制霸

当我第一次涉猎这些研究论文时,我也面临着同样的问题。我费了好大的劲来分析它们,并领会其中的基本技巧是什么。这就是为什么我决定帮助数据科学家同事理解这些研究论文。

这些天有非常多的令人难以置信的学术会议,我们需要让自己跟上机器学习的最新发展。这篇文章是我回馈社区的一种方式,它给与了我很多东西!

在本文中,我们将研究ICLR 2019年会议上的两篇最佳论文。

ICLR 2019年度最佳论文奖授予:

  • Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks (RNNs)
  • The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

让我们来分析这两篇令人难以置信的论文,并了解它们的方法。

Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks

下载地址:https://openreview.net/pdf?id=B1l6qiR5F7

自然语言的结构是层次性的。这意味着较大的单位或成分由较小的单位或成分(短语)组成。这个结构通常是树状的。

虽然标准的LSTM体系结构允许不同的神经元在不同的时间尺度上跟踪信息,但它对单元层次结构的建模没有明显的偏好。本文提出通过对神经元进行排序来增加这种诱导性的偏好。

这篇文章的目标

研究人员的目标是将树结构集成到神经网络语言模型中。这样做的原因是通过更好的归纳偏好来改进泛化,同时潜在地减少了对大量训练数据的需求。

过去的State-of-the-Art是什么?

  • 预测相应的潜在树结构的一种方法是通过一个有监督的语法分析器。这些解析器生成的树被用来指导将单词语义组合成句子语义。这也有助于预测下一个单词给定的前一个单词。
  • 然而,受监督的解析器由于以下几个原因而受到限制:
  • 很少有语言具有用于监督解析器培训的全面注释数据
  • 语法规则往往在某些领域被打破(例如在tweets中)
  • 语言会随着使用的时间而变化,所以语法规则可能会进化
  • 递归神经网络(RNNs)已被证明在语言建模方面非常有效。RNNs显式地对数据施加一个链结构。这种假设似乎与语言潜在的非顺序结构不一致。
  • 使用深度学习方法对自然语言数据的处理可能会遇到一些困难,如获取长期依赖关系、实现良好的泛化、处理否定等问题。同时,有证据表明,具有足够能力的LSTMs可能通过隐式编码树结构来实现语法处理机制。

这篇文章提出的新方法

这就是事情变得非常有趣的地方(对你们这些书呆子来说真的很酷!)

本文提出有序神经元。这是RNN的一种新的诱导偏好,它迫使神经元在不同的时间尺度上表示信息。

这种诱导偏好有助于在长期神经元中存储长期信息。短期信息(可以很快被遗忘)保存在较低级别的神经元中。

提出了一种新的RNN单元 ON-LSTM。新模型使用了与标准LSTM类似的架构:

ICLR 2019最佳论文解析:神经网络制霸

不同之处在于,更新细胞状态ct的函数被替换为一个新的函数cumax()。

由于LSTM中的门独立作用于每个神经元,因此可能很难辨别神经元之间的信息层次。因此,研究人员提出,通过强制执行神经元更新的顺序,使每个神经元的门依赖于其他神经元。

很有趣,对吧?

ON-LSTM包括一个新的门控机制和一个新的激活函数cumax()。将cumax()函数和LSTM组合在一起,在LSTM上创建一个新的模型。这就解释了为什么这个模型偏向于执行类似树的组合操作。

激活函数: cumax()

我想花一些时间讨论一下cumax()函数。这是解开本文所介绍的方法的关键。

引入这个cumax()激活函数是为了强制更新频率的顺序:

g^= cumax(…)= cumsum(softmax(…)),

这里,cumsum和表示累积和。g^可以看作是一个二元门的期望,g将cell状态分成两段:

  • 0-segment
  • 1-segment

因此,该模型可以对每个段应用不同的更新规则来区分长/短信息。

结构化门机制

本文还介绍了一种新的主忘记门ft和一种新的主输入门it。这些实体也基于cumax()函数。

根据cumax()函数的性质,主遗忘门中的值从0单调地增加到1。类似的情况也发生在主输入门中,其中值单调地从1下降到0。

这些门用作单元状态更新操作的高级控制。我们可以定义一个新的更新规则使用主门:

ICLR 2019最佳论文解析:神经网络制霸

实验和结果

研究人员通过四项任务评估了他们的模型:

  • 语言模型
  • 无监督的选区解析
  • 目标句法评价
  • 逻辑推理

以下是最终结果:

ICLR 2019最佳论文解析:神经网络制霸

横轴表示序列的长度,纵轴表示模型在相应测试集上性能的准确性

对于不同长度的结构化数据,ON-LSTM模型具有较好的泛化性能。树结构模型可以在此数据集上实现相当强的性能。

论文的总结

  • 介绍了一种新的RNN诱导偏好有序神经元
  • 在此基础上,提出了一种新的循环单元on-lstm,它包括一个新的门控机制和一个新的激活函数cumax()
  • 这有助于RNN执行树状组合操作,通过分别分配具有长期和短期信息的隐藏状态神经元。
  • 模型性能表明,ON-LSTM以与人类专家注释一致的方式诱导自然语言的潜在结构
  • 归纳偏好也使on-lstm能够在语言建模、长期依赖和逻辑推理任务上取得良好的性能

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

论文下载链接:https://openreview.net/pdf?id=rJl-b3RcF7

这是我2019年最喜欢的论文之一。让我们把它分成易于消化的部分!

剪枝是从神经网络中去除不必要权重的过程。该过程在不影响精度的前提下,可以将参数计数减少90%以上。它还减少了训练网络的规模和能量消耗,使我们的推理更有效。

然而,如果一个网络的规模可以缩小,为什么我们不训练这个更小的架构来提高训练的效率呢?这是因为修剪所揭示的体系结构从开始的时候很难进行训练,从而大大降低了准确性。

这篇论文的目标

本文的目的是证明从一开始就存在较小的训练子网络。这些网络在达到类似测试精度的同时,学习速度至少与较大的同类网络一样快。

例如,我们从一个全连接的网络MNIST和卷积网络CIFAR10随机抽样并训练子网络:

ICLR 2019最佳论文解析:神经网络制霸

虚线是迭代的最小验证在不同稀疏级别上迭代时的测试精度。网络越稀疏,学习越慢,最终的测试精度越低。

这就是研究人员提出他们的彩票假说的地方。

彩票假说

一个随机初始化的密集神经网络包含一个子网络,标记为中奖彩票网络。这是初始化的,这样,当单独训练时,它可以在训练最多相同迭代次数的情况下匹配原始网络的测试精度。

下面是彩票假说概念的一个极好的例子:

ICLR 2019最佳论文解析:神经网络制霸

识别出中奖的彩票

我们通过训练它的网络和修剪它的最小量级的权重来识别一个彩票。其余未修剪的连接构成了中奖彩票网络的体系结构。

然后,在对每个未修剪连接进行训练之前,将其值从原始网络重置为初始化值。

实现这一目标的过程涉及到智能训练和修剪的迭代过程。我将其总结为五个步骤:

  1. 随机初始化一个神经网络
  2. 训练网络直到它收敛
  3. 进行修剪
  4. 要提取中奖彩票网络,请将网络其余部分的权重重置为步骤1中的值

修剪是一次性的,也就是说只修剪一次。

但在这篇论文中,研究人员关注的是迭代剪枝,它反复训练、修剪和重置网络。每一轮删除前一轮剩余权重的p^(1/n) %。

因此,与一次性剪枝相比,这种迭代剪枝可以在较小的规模下找到与原始网络的精度匹配的中奖彩票网络。

应用

在阅读这些研究论文时,每个人都会想到一个问题—我们究竟能把它应用到哪里?这一切都很好,很好的实验和提出一个新的方法。但最重要的是将其转换为实际应用。

这篇论文对计算中奖彩票网络非常有用。彩票假设可以应用于MNIST训练的全连接网络和CIFAR10上的卷积网络,增加了学习问题的复杂性和网络的规模。

现有的神经网络剪枝研究表明,神经网络学习的函数通常可以用较少的参数表示。修剪通常通过训练原始网络、删除连接和进一步微调来进行。

实际上,初始训练初始化修剪后的网络的权重,以便在微调期间它可以独立地学习。

中奖彩票网络初始化的重要性

当随机重新初始化中奖彩票网络时,中奖彩票网络的学习速度较慢,并且获得较低的测试精度。这表明初始化对它的成功非常重要。

中奖彩票网络结构的重要性

产生中奖彩票网络的初始化安排在特定的稀疏体系结构中。由于我们通过大量使用训练数据来发现中奖彩票网络,我们假设中奖彩票网络的结构编码了一种针对当前学习任务的归纳偏好。

局限性以及未来的工作

研究人员意识到这还不是最终产品。目前的办法有一些限制,今后可以加以解决:

  • 没有研究较大的数据集。只考虑较小数据集中以视觉为中心的分类任务。
  • 这些研究人员打算探索更有效的方法来找到中奖彩票网络,这将使在更资源密集的环境中研究彩票网络假说成为可能
  • 稀疏剪枝是我们找到中奖彩票网络网络的唯一方法。
  • 研究人员打算从广泛的当代文献中研究其他剪枝方法,如结构化剪枝(可生成针对当代硬件优化的网络)和非规模剪枝方法(可生成更小的中奖彩票网络或更早发现它们)
  • 中奖彩票网络进行初始化之后才能得到和没有剪枝的网络匹配的性能,需要考虑在规模太小的未经修剪的网络随机初始化网络做同样的事情。
  • 研究人员打算研究这些初始化的特性,这些特性与修剪后的网络架构的归纳偏好相一致,使得这些网络更加擅长学习

结束语

在本文中,我们详细讨论了ICLR中发表的两篇最佳研究论文。通过阅读这些论文,了解这些研究专家的思维过程,我学到了很多。我鼓励你读完这篇文章后自己把这些论文看一遍。

不久还会有更多以研究为重点的会议。国际机器学习会议(ICML)和计算机视觉和模式识别(CVPR)会议将在未来几个月举行。请继续关注!

英文原文:https://medium.com/recombee-blog/machine-learning-for-recommender-systems-part-2-deep-recommendation-sequence-prediction-automl-f134bc79d66b

ICLR 2019最佳论文解析:神经网络制霸
"


分享到:


相關文章: