EMNLP 2019中和BERT相关的一些论文介绍

编译:ronghuaiyang

导读

EMNLP 2019中一些和BERT相关的很不错的论文。

EMNLP 2019中和BERT相关的一些论文介绍

自然语言处理的经验方法会议(EMNLP)于 2019 年 11 月 3 日至 11 月 7 日在香港举行。有很多有趣的论文,但我想强调一下 BERT 的论文。

揭露 BERT 的黑暗秘密

http://arxiv.org/abs/1908.08593

在这篇论文中,来自马萨诸塞大学洛厄尔分校的研究人员研究了 BERT 的 layer 和 head 的自我注意机制。用到的数据集是 GLUE 任务的子集:MRPC、STS-B、SST-2、QQP、RTE、QNLI、MNLI。

实验:

  • BERT 中特定关系的 head
  • fine-tuning 之后自注意力模式的改变
  • 语言特征的注意力机制
  • Token-to-token 的注意力机制
  • 关闭 head 的自注意力机制
EMNLP 2019中和BERT相关的一些论文介绍

用于神经网络训练的典型的自注意类型。每个图像上的两个轴表示输入样本的BERT tokens,颜色表示绝对注意力权重(深色表示更大的权重)。前三种类型最可能与预训练的语言模型相关,而后两种类型可能编码语义和语法信息。

有趣的发现:

BERT 模型明显参数化过度。在不同的 head 中有限的注意力模式是有重复的。因此,禁用某些 head 并不会导致准确率下降,而是会提高性能。

很有趣。这就是为什么 distilling BERT 是有意义的。

可视化和理解 BERT 的有效性

http://arxiv.org/abs/1908.05620

这是另一篇关于用微软研究院的很酷的可视化工具来理解 BERT 的性能的论文。

EMNLP 2019中和BERT相关的一些论文介绍

在四个数据集上从头开始训练的训练损失曲面(顶部)和对BERT进行finetune的训练损失曲面(底部)。与随机初始化相比,预训练可以得到更泛化的优化,并简化了优化过程。

上图清晰地展示了本文的主要思想:

  • finetune BERT 的训练损失沿优化方向呈单调递减趋势,有利于优化,加速训练收敛
  • finetune 过程对过拟合更加鲁棒
  • 预训练模型可以获得更平更宽的优化值

所以,不要从头开始训练 BERT 完成你的任务。finetune 更好。

用耐心的知识蒸馏来对 BERT 模型进行压缩

http://arxiv.org/abs/1908.09355

微软还有一篇关于知识蒸馏的论文。提出了一种通过耐心的知识蒸馏将大 BERT 模型压缩成浅 BERT 模型的新方法。该方法声称是第一个使用蒸馏的方法,不仅用于输出分布,而且用于“教师”的隐藏状态。此外,“student”只尝试模仿[CLS] token 的表示形式。与其它蒸馏方法相比,BERT-PKD 比 DistilBERT 好,但比 TinyBERT 差。

EMNLP 2019中和BERT相关的一些论文介绍

Sentence-BERT:使用 Siamese BERT-Networks 来得到句子嵌入

http://arxiv.org/abs/1908.10084

Code: https://github.com/UKPLab/sentence-transformers

问题如下:BERT 的嵌入是否适合语义相似度搜索?本文证明了 BERT 可以开箱即用的将句子映射到一个向量空间,而这个向量空间不太适合用于余弦相似度等常见的相似度度量。其性能比一般的 GloVe 嵌入差。为了克服这一缺点,提出了 Sentence-BERT (SBERT)。SBERT 在 siamese 或 triplet 网络架构中对 BERT 进行了 finetune。

EMNLP 2019中和BERT相关的一些论文介绍

具有分类目标函数的SBERT架构,例如用于对SNLI数据集进行finetune。两个BERT网络都有各自的权值(siamese网络结构)。

Beto, Bentz, Becas: BERT 惊人的跨语言有效性

http://arxiv.org/abs/1904.09077

本文探讨了多语言 BERT 作为一种零距离语言迁移模型的跨语言潜能。

长话短说:BERT 有效地学习了良好的多语言表示,在各种任务中具有很强的跨语言零样本的迁移性能。

英文原文:https://towardsdatascience.com/bert-at-emnlp-2019-46db6c2e59b2


分享到:


相關文章: