ViLT

标题

之前的模型一般都是文本处理比较简单直接将文本变成Embedding，然后直接和图片特征放到Transformer里做模态融合

之前的工作Region Feature就像目标检测一样是抽取局部特征，先用CNN Backbone，然后再经过Region Operations获得很多框（使用目标检测的任务）

之前的Region Feature在视觉这边占用时间极长

ViLT的训练成本很贵且效果一般，但是运行时间非常快

预训练非常重要，出现了很多VLP模型，一般输入都是图像文本对，loss用的是图像文本match loss，并且使用BERT一样的掩码学习
语言只能用Transformer，但是图片不能直接丢到Transformer里因为太长了，需要提取更高的离散性的语义特征，ViT是分成patch，当时用的是预训练的目标检测器（图像变成bounding box，每个都是一个物体，有明确的语义信息，且离散，每个区域都相当于NLP中的一个word；另外当时的下游任务很多都和物体有很强的联系，例如VQA），一般是在Visual Genome上训练，这个数据集有1600个类400个属性，因为多模态希望图像能覆盖更多特征，能和文本匹配起来。目标检测非常贵
pixel-BERT能够不用目标检测抽特征，直接用resnet的特征
作者认为上面的任务基本关注图像编码器的性能，而没有关注效率，推理开销很大
本文受启发于ViT，把图像打成patch，然后将patch变成linear embedding
模态融合的方法
single-stream：两种输入直接连接然后给模型
dual-stream：两种输入分别给一个模型然后在某个时候融合起来
本文三点贡献
简单，推理速度快
性能比较好
使用数据增强，之前多模态学习用数据增强比较少，因为增强之后可能语义信息发生mismatch，作者发现数据增强还是比较好的

模型结构：Transformer Encoder
将图片和文本变成Embedding之后需要在前面加一些指示Flag，因为single-stream不能区分图像文本，所以需要在前面加0/1表示文本或图像；文本和图像最前面需要加CLS Token；另外需要加position embedding；注意这里三个Embedding是相加的而不是拼接

loss：Image Text Matching + Masked Language Modeling + Word Patch Alignment，最后一种用的人比较少，也是想算文本和图像特征相似度，利用Optimal Transport最优运输理论，简单理解是输出的文本特征和图像特征各有一个概率分布，作者计算了两个分布之间的距离。第二种loss就是BERT的完型填空
Whole Word Masking
之前用的是WordPiece Token，就是将一个word切成几份，如果中间mask掉一个的话，模型可以根据首尾几个字母直接猜出来，而不用去从图像中学，相当于一个Shortcut。所以直接将整个word去掉
这个trick很有效
数据增强
RandAugment，但是不使用Color inversion和cutout

预训练
数据集：
- MSCOCO：一个图片有5个Caption，标题比较长
- VG：标题非常多，但比较短
- GCC：一个图片一个标题，标题比较长
- SBU：同上
这四个数据集一般称作 4Million，因为这些图片相加数量大概是4M
前两个图片在数据集里，后两个放的是URL导致很多图片失效了
结论：取舍比较好