Transformer

Abstract

sequence transduction序列转录模型，seq2seq，一段序列生成另一端序列，一般是用encoder加decoder
本文只适用attention，而不使用CNN和RNN

Conclusion

我们只使用了attention
代码一般是直接放在摘要里的，本文是tensor2tensor

Introduction

RNN难以并行。时序长的前面的信息可能会丢失

纯用attention并行度高

Relation Work

CNN只能看到序列中的一小部分，而attention能够看到所有的序列。卷积好的地方在于可以做多个输出通道，每个输出通道认为是识别一种特定的模式，本文提出多头的注意力机制
自注意力机制很重要，但并不是本文第一次提出

Model Architecture

首先介绍Encoder和Decoder。编码器是整个句子拿到，而解码器是自回归的，一个词一个词的生成

架构图：

左边是编码器右边是解码器，解码器之前的输出作为当前的输入（所以这里最下面写的是output）

Nx表示由N个Block构成，每个block里面有一个多头注意力层+前馈神经网络（基本是MLP）并使用ResNet。

MLP（Multilayer Perceptron，多层感知器）是一种基本的前馈神经网络，由多个全连接层组成。在每个全连接层中，每个神经元都与前一层的所有神经元相连，通过学习权重和偏置，实现对输入数据的非线性映射。

MLP通常用于解决分类和回归问题，可以处理非线性数据，具有很强的适应能力和泛化能力。在训练过程中，MLP通过反向传播算法来更新权重和偏置，使得模型可以逐渐逼近真实数据的分布。

MLP的网络结构通常包括输入层、隐藏层和输出层。输入层接收原始数据，并将其传递给第一个隐藏层；每个隐藏层通过学习非线性映射，将输入转换为更高层次的特征表示，并将其传递给下一个隐藏层或输出层；输出层根据不同的任务，可以采用不同的激活函数，如sigmoid、softmax等，将特征转换为输出结果。

MLP在深度学习中具有重要的地位，是其他深度学习算法的基础。它可以通过堆叠多个隐藏层来构建深层神经网络，从而实现更强大的特征提取和学习能力。同时，MLP还可以与其他深度学习技术相结合，如卷积神经网络和循环神经网络等，构建更加复杂的神经网络模型。

解码器中多了Masked Multi-head Attention

与传统的Encoder-Decoder的架构的区别是Block的架构以及中间从Encoder到Decoder的输入。

Encoder：为了残差的方便，所有的维度都是512，没有做维度的减小或者增加。参数很少，就层数N和维度d。

LayerNorm与BatchNorm，在变长的情况（文本不是统一长度）不使用BatchNorm

对于BatchNorm，在train的时候，一般是取小批量里的均值和方差，在预测的时候用的是全局的均值和方差。什么是批标准化 (Batch Normalization) - 知乎 (zhihu.com)。二维情况（每个样本对应一个feature）在下图中BatchNorm是下图左边，LayerNorm的下图右边。

三维情况（batch由样本组成，每个样本是seq长度的向量，每个词由一个feature向量来描述，feature长度是d，transformer中是512），蓝色是BatchNorm，黄色是LayerNorm。

句子长度是不同的，对于BatchNorm有很多零，导致均值方差抖动大，并且不一定能适合于长句子
解码器：其中的masked multi-head attention，输入的时候在\(t\)时间不会看到\(t\)时间之后的输入（注意力机制中是可以看到完整输入的，所以要加masked）

Attention：注意力函数是从一个query和一系列键值对映射到output的函数，这些query、键值对都是向量，output是对values的加权求和，这些权重可以由query和对应key的关系计算出来（compatibility function相似函数），不同注意力机制有不同的计算方法

上面黄色和绿色表示query，和蓝色越接近，对应的权重就越大

Scaled Dot-Product Attention 最简单的注意力函数

将query和key的内积作为相似度（cos），如果为0说明正交。第二段是矩阵运算来加速的方法

query的数量可能有\(n\)个，key-value的数量是\(m\)个，但是query和key的长度都是\(d_k\)。最后结果每一行都是一个结果

其他人使用的注意力机制：additive attention（处理query和key不等长的情况）和dot-product attention（和本文相同，除了本文除了\(\sqrt{d_k}\)）

除以这个数的原因是：当\(d_k\)比较大的时候，算出来的加权value值差距较大，经过softmax有些值变成1有些值变成0，所以要除

上图masked表示对于\(t\)时间的query \(q_t\)，应该只看\(k_1,k_2,\dots,k_{t-1}\)。这里的解决方法是：将\(k_t,\dots\)换成非常大的负数，使得通过softmax都是0

Multi-head Attention：将VKQ先投影到低维\(h\)次做内积然后再连接起来升维。原因：Scaled Dot-Product没有能学的参数（additive attention里有可以学的参数）

Transformer输入输出维度一直是512，这里\(h\)用的是8，所以这里就让投影之后为64维，之后拼起来变成512维

实现的时候可以一个矩阵乘法实现

注意力的application

第一个自注意力层：输入\(n\)个（句子中词的数量）长为\(d\)（每个词的feature）的向量。自注意力表示输入同时作为query和key和value。假设不考虑多头，那么会得到\(n\)个长为\(d\)的结果，每个结果都是所有value的加权和，而这个权重里，最大的就是自己和自己的权重

第二个自注意力层：和上面基本一致，除了masked，所以上图中黄色画的线都要置成0

第三个注意力层：key和value（\(n\)个长为\(d\)）来自Encoder，query（\(m\)个长为\(d\)）来自Decoder。例如Encoder中Hello和World分别对应一个长为\(d\)的向量即value，那么结果一定是这些value的加权求和，而这权重就是Decoder中query和对应key的相似度，例如“你”可能和"Hello"比较接近则权重更大。

Feed-Forward Network

就是MLP。特点是“applied to each position separately and identically”。下面\(x\)是512的向量，\(W_1\)将其投影到2048，\(W_2\)将其投影回到512，即单隐藏层的MLP。

再看架构图

下面的红色是attention层，上面是对每个position做MLP（尽管画了多个方块，但是每个position的MLP是相同的）。attention的作用是aggregate汇聚我所有感兴趣的信息，即完成了序列信息的汇聚，所以可以分开MLP

右边其实和RNN很像，但是用的是attention抽取的序列信息。

Embeddings and Softmax：编码input和output token，将其映射到\(d\)维。最后乘一个\(\sqrt{d}\)，因为维度大了之后，一旦正则，权重值小，所以需要乘以一个数。另外需要加Positional Encoding而这个东西不会因为Norm而变小所以两者需要在相近的scale上，所以乘了这个数

Positional Encoding

attention没有时序信息，句子打乱之后值不会变，这有问题。所以这里将位置1,2,3,4,5...加到句子里面。

公式：

使用上面的公式编码数字，然后加到Embedding之后的向量里。由于是使用sin和cos，这个位置编码是在-1到1之间的，所以上面的embedding要乘一个常数使其大致在-1到1之间

Why Self-Attention

第一组是计算复杂度
第二列是顺序计算，越少并行度越高
第三列是信息从一个数据点到另一个数据点要走多远，越小越好。任何一个query可以和key直接做运算，path很短

Training

学习率基本不调，使用的是Adam
使用大量的dropout
label smooth：softmax的置信度设置成0.1，即达到0.1就算是正确