Attention机制

在Encoder-Decoder结构中，Encoder把所有的输入序列都编码成一个统一的语义特征c再解码，因此， c中必须包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个c可能存不下那么多信息，就会造成翻译精度的下降。

Attention机制通过在每个时间输入不同的c来解决这个问题，下图是带有Attention机制的Decoder：

每一个c会自动去选取与当前所要输出的y最合适的上下文信息。具体来说，我们用 $a\_{ij}$ 衡量Encoder中第j阶段的hj和解码时第i阶段的相关性，最终Decoder中第i阶段的输入的上下文信息 $c\_i$ 就来自于所有 $h\_j$ 对 $a\_{ij}$ 的加权和。

以机器翻译为例（将中文翻译成英文）：

输入的序列是“我爱中国”，因此，Encoder中的h1、h2、h3、h4就可以分别看做是“我”、“爱”、“中”、“国”所代表的信息。在翻译成英语时，第一个上下文c1应该和“我”这个字最相关，因此对应的 $a\_{11}$ 就比较大，而相应的 $a\_{12}$ 、 $a\_{13}$ 、 $a\_{14}$ 就比较小。c2应该和“爱”最相关，因此对应的 $a\_{22}$ 就比较大。最后的c3和h3、h4最相关，因此 $a\_{33}$ 、 $a\_{34}$ 的值就比较大。