大模型时代的科研

方向

Efficient
PEFT：parameter efficient fine tuning，做大模型的微调
Exising stuff (pretained model) & new directions
例如使用CLIP做各种应用
Plug-and-play
即插即用的模块，例如新的目标函数、新的loss和数据增强的方法，在能承受的baseline上做公平对比说明有效性
Dataset, evaluation and survey

Efficient

Parameter-Efficient Transfer Learning for NLP
Adapter就是一个下采样的FC层+非线性层+上采样的FC层，在模型微调的过程是不会动Transformer Block中的其他模块的参数
Lora就使用了PFET方法
相关论文：Towards A Unified View of Parameter-Efficient Transfer Learning
文本Prompt相关技术
论文：CoOp（Context Optimization）
标题：Learning to Prompt for Vision-Language Models
CLIP的分类任务的推理，就是用各种标签（Prompt）和图片算相似度，这种Prompt可以修改格式，从而大幅影响模型的准确率

人工写死的Prompt是hard prompt，而本文提出soft prompt可学习的prompt，就是一个learnable vector。将模型参数锁住，然后学习这个learnable vector
架构：和CLIP不同的是text的输入是一个可学习的向量
视觉Prompt相关技术
论文：VPT（Visual-Prompt Tuning）
标题：Visual-Prompt Tuning
架构
- VPT Shallow，和文本端很像，在输入端加一个learnable prompt且加在原来的patch embedding之前，然后锁住整个模型只学习这两个prompt
- VPT deep，每一层都使用prompt
AIM: Adapting Image Models for Efficient Video Action Recognition
视频动作识别
之前有两种方法：首先我们都要有一个预训练的Image模型（2D）
- 时空分开做（2D），在已有的Image模型（2D）上加时序处理模块，例如TSN将视频分成多段然后将视频抽取的特征做加权平均，TimesFormer先做TimeAttention再做SpatialAttention
- 时空一起做
- 时空一起做（3D），使用3D网络（输入是3D的，模型也是3D的），例如 I3D 等
这两种方法成本都比较大，需要在视频数据上做FineTune，但视频数据集很大，数据 IO 有Bottleneck，导致训练时间极长，这些还已经是在预训练模型上FineTune，其他train from scratch的就更耗费时间了
作者认为强大的图像模型抽取的视频特征已经很强了，同时下游任务数据集不够强可能会导致模型过拟合或灾难性遗忘，所以就打算直接锁住Image Model，然后在上面加Adapters

本文提出三种Adaptation：
- Spatial Adaptation：在Self-Attention后面加Adapter，不添加时序理解的能力，只是想把图像特征迁移到视频特征，尽量解决Domain Gap问题，发现这一步已经很有用了，但是缺少时序建模能力，在很多数据集上效果仍不好，比不过full fine tune model
- Temporal Adaptation：复用MSA，参数相同且frozen，目的是想让一个MSA学Spatial，一个MSA学Temporal，方法是reshape，可以看到(d)中第一个MSA是在\(T\)上做，第二个是\(N+1\)（sequence length）维度上做自注意力，然后再加两个Adapter，此时性能已经达到Full Fine Tune水平
- Joint Adaptation：最后再加一个Adapter去学Spatial Temporal Feature
(e)就是一个ViT Block，重复12次得到Vit-Base
发现如果Image Foundation Model变强，性能也会大幅提高

Exising stuff (pretained model) & new directions

zero shot > few shot > pretaining
Unsupervised Semantic Segmentation With Self-Supervised Object-Centric Representations
语义分割任务
Self-Supervised：使用预训练好的DINO网络等，不需要额外训练
Object-Centric Representation：比较新的赛道。之前大家关注图像整体层面的特征，这个赛道是提取物体层面的特征，因为人会先观察人再观察物体然后观察人与物体之间的交互。本文关注如何无监督或自监督地学习物体特征。

首先先用DeepUSPS（给定图片会提取出显著物体的Mask）抽取saliency mask label，如此解决定位问题；然后解决分类问题，将扣出的这些图形之后然后resize成224*224扔给DINO网络，得到representations；然后做无监督的聚类，得到pseudo masks（即能告诉你每个东西是类0或是类1或是类2，只是一个id）；有了图像和mask label就可以有监督地训练一个semantic segmentation network（例如DeepLab v3）
最近该方向卷起来了，因为有CLIP的Language Guided Segmentation
关注一些新的topic包括因果学习、Feedforward Network（FFNet）、In-Context Learning、Chain of Thought Prompting

Plug-and-play

可以在ResNet后面加一个Non-Local，或者是一个loss例如Focal Loss，还有数据增强（可以不受限于任务和模态）例如MixUp
证明某个方法的有效性可以不刷榜（光刷榜还有可能是overfit），只需要证明在多个数据集上有提升有泛化性有合适分析
MixGen: A New Multi-Modal Data Augmentation
多模态的数据增强
开题的时候，想的是Cross-Modality Distillation，就是VLMo证明图像和文本可以共享自注意力层，因为文本模型大而图像模型小，所以考虑将文本模型蒸馏成一个图像模型，或者反过来，发现提高很小且成本比较大
后来发现多模态论文要么觉得数据集太大不需要做数据增强，要么去掉了一些数据增强（主要是Color Jittering和Random Flip，会导致颜色和方向对不上）。作者认为数据增强对CV是很有用的
为了最大限度的保留信息：
- 图像：MixUp，即将两张图直接做线性插值，虽然生成的图片很怪但是基本不会丢失信息
- 文本：直接将两个文本拼接在一起，不会丢失任何信息
审稿人提出意见：预训练的时候多模态数据集很多，但是下游任务数据少，可以考虑在下游任务FineTune时做数据增强。但是作者发现很多下游任务MixGen有点难，比如VQA是一个图像两个文本

Dataset, evaluation and survey

BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training
做数据集不一定贵，本文将三个数据集合到一起