编译:ronghuaiyang
导读
EMNLP 2019中一些和BERT相关的很不错的论文。
![EMNLP 2019中和BERT相关的一些论文介绍](http://p2.ttnews.xyz/loading.gif)
自然语言处理的经验方法会议(EMNLP)于 2019 年 11 月 3 日至 11 月 7 日在香港举行。有很多有趣的论文,但我想强调一下 BERT 的论文。
揭露 BERT 的黑暗秘密
http://arxiv.org/abs/1908.08593
在这篇论文中,来自马萨诸塞大学洛厄尔分校的研究人员研究了 BERT 的 layer 和 head 的自我注意机制。用到的数据集是 GLUE 任务的子集:MRPC、STS-B、SST-2、QQP、RTE、QNLI、MNLI。
实验:
- BERT 中特定关系的 head
- fine-tuning 之后自注意力模式的改变
- 语言特征的注意力机制
- Token-to-token 的注意力机制
- 关闭 head 的自注意力机制
![EMNLP 2019中和BERT相关的一些论文介绍](http://p2.ttnews.xyz/loading.gif)
用于神经网络训练的典型的自注意类型。每个图像上的两个轴表示输入样本的BERT tokens,颜色表示绝对注意力权重(深色表示更大的权重)。前三种类型最可能与预训练的语言模型相关,而后两种类型可能编码语义和语法信息。
有趣的发现:
BERT 模型明显参数化过度。在不同的 head 中有限的注意力模式是有重复的。因此,禁用某些 head 并不会导致准确率下降,而是会提高性能。
很有趣。这就是为什么 distilling BERT 是有意义的。
可视化和理解 BERT 的有效性
http://arxiv.org/abs/1908.05620
这是另一篇关于用微软研究院的很酷的可视化工具来理解 BERT 的性能的论文。
在四个数据集上从头开始训练的训练损失曲面(顶部)和对BERT进行finetune的训练损失曲面(底部)。与随机初始化相比,预训练可以得到更泛化的优化,并简化了优化过程。
上图清晰地展示了本文的主要思想:
- finetune BERT 的训练损失沿优化方向呈单调递减趋势,有利于优化,加速训练收敛
- finetune 过程对过拟合更加鲁棒
- 预训练模型可以获得更平更宽的优化值
所以,不要从头开始训练 BERT 完成你的任务。finetune 更好。
用耐心的知识蒸馏来对 BERT 模型进行压缩
http://arxiv.org/abs/1908.09355
微软还有一篇关于知识蒸馏的论文。提出了一种通过耐心的知识蒸馏将大 BERT 模型压缩成浅 BERT 模型的新方法。该方法声称是第一个使用蒸馏的方法,不仅用于输出分布,而且用于“教师”的隐藏状态。此外,“student”只尝试模仿[CLS] token 的表示形式。与其它蒸馏方法相比,BERT-PKD 比 DistilBERT 好,但比 TinyBERT 差。
Sentence-BERT:使用 Siamese BERT-Networks 来得到句子嵌入
http://arxiv.org/abs/1908.10084
Code: https://github.com/UKPLab/sentence-transformers
问题如下:BERT 的嵌入是否适合语义相似度搜索?本文证明了 BERT 可以开箱即用的将句子映射到一个向量空间,而这个向量空间不太适合用于余弦相似度等常见的相似度度量。其性能比一般的 GloVe 嵌入差。为了克服这一缺点,提出了 Sentence-BERT (SBERT)。SBERT 在 siamese 或 triplet 网络架构中对 BERT 进行了 finetune。
具有分类目标函数的SBERT架构,例如用于对SNLI数据集进行finetune。两个BERT网络都有各自的权值(siamese网络结构)。
Beto, Bentz, Becas: BERT 惊人的跨语言有效性
http://arxiv.org/abs/1904.09077
本文探讨了多语言 BERT 作为一种零距离语言迁移模型的跨语言潜能。
长话短说:BERT 有效地学习了良好的多语言表示,在各种任务中具有很强的跨语言零样本的迁移性能。
英文原文:https://towardsdatascience.com/bert-at-emnlp-2019-46db6c2e59b2
閱讀更多 AI公園 的文章