前言

标题:Self-Attention with Relative Position Representations
原文链接:Link
Github:NLP相关Paper笔记和实现
说明:阅读论文时进行相关思想、结构、优缺点,内容进行提炼和记录,论文和相关引用会标明出处,引用之处如有侵权,烦请告知删除。
转载请注明:DengBoCong

介绍

了解Transformer的都知道,与递归和卷积神经网络相反,它没有在其结构中显式地建模相对或绝对位置信息,而是它需要在其输入中添加绝对位置的表示,这是一种完全依赖于注意力机制的方法。在本篇论文中,提出了一种替代方法,扩展了自注意机制,可以有效地考虑相对位置或序列元素之间距离的表示。本文描述了该方法的有效实现,并将其转换为可感知到任意图标记输入的相对位置感知自注意力机制的实例,即提出了一种将相对位置表示形式并入Transformer自注意机制的有效方法,残差连接有助于将位置信息传播到更高的层。

循环神经网络(RNN)通常根据时间 $t$ 的输入和先前的隐藏状态 $h_{t-1}$ 计算隐藏状态 $h_t$,直接通过其顺序结构沿时间维度捕获相对位置和绝对位置。非循环模型不必一定要顺序考虑输入元素,因此可能需要显式编码位置信息才能使用序列顺序。

一种常见的方法是使用与输入元素结合的位置编码,以将位置信息公开给模型。这些位置编码可以是位置的确定性函数或学习的表示形式。比如,卷积神经网络捕获每个卷积内核大小内的相对位置,已被证明仍然受益于位置编码。

Relation-aware自注意力

总结

本文提出了自注意力的扩展,可用于合并序列的相对位置信息,从而提高了机器翻译的性能。论文中的这个思路可以借鉴参考,通过对自注意力的改造,就不需要进行硬位置编码了,但是论文中貌似没有比较硬位置编码和该方法的效果。