DeepLearning/Computer Vision

[Paper Review] Masked Autoencoders Are Scalable Vision Learners (CVPR'22)

yooj_lee 2023. 4. 29. 17:22
300x250

image

오늘 리뷰할 논문은 Masked Autoencoders Are Scalable Vision Learners (a.k.a. MAE)입니다. 22년도 CVPR에서 oral presentation으로 선정된 논문이며, Masked Modeling을 아주 간단한 방식을 통해서 Vision 분야의 self-supervised pre-training에 성공적으로 적용한 논문입니다. 이 방법론은 Simple, effective, scalable하다고 정리할 수 있겠습니다! 하기할 내용에 오류 혹은 질문이 있을 경우 언제든 댓글 부탁드립니다!


Abstract

We mask random patches of the input image and reconstruct the missing pixels based on two core designs:

  • an asymmetric encoder-decoder architecture with an encoder that operates only on the visible subset of patches
  • masking a high proportion of the input image, e.g., 75%, yields a nontrivial and meaningful self-supervisory task.

Coupling these two designs enables us to train large models efficiently and effectively: The paper accelerates training (by $3\times$ or more) and improves accuracy.

This scalable approach allows for learning high-capacity models that generalize well.


1. Introduction

하드웨어의 발전으로 모델이 IN-1K와 같은 데이터셋에 overfitting되며, 몇 억장 단위의 labeled dataset (even often publicly inaccessible)을 요구하게 됨. NLP에서는 많은 양의 데이터가 요구되는 상황을 self-supervised pre-training으로 해결해옴. 여기서 self-supervised pre-training은 masked autoencoding or autogressive language modeling임 (데이터 내 부분을 삭제하고 이를 predict하는 방식으로 학습). 이를 통해서 large scale + generalizable NLP 모델이 개발되게 됨.

이러한 아이디어가 nlp에서만 적용된 것은 아니고, 이미지에서도 적용이 되어오긴 했으나, BERT와 같은 pre-training 방식이 vision에서는 성공적으로 적용되지 못함.
→ What makes masked autoencoding different between vision and language?

  1. architecture 적인 측면 (ConvNet에서는 mask token이나 positional embedding을 적용하기가 쉽지 않음. But, 이런 부분은 ViT가 나오면서 해결)
  2. Information density
Language Image
High Low

이렇기 때문에 language 같은 경우에는 단어 하나만 가려놓고 이를 맞히는 태스크를 수행한다고 해도 굉장히 language understanding을 잘 induce할 수 있게 학습이 되는데 이미지 같은 경우에는 spatial redundancy가 매우 heavy한 형태이기 때문에 하나의 patch를 삭제하고 이를 복원하는 방식으로 학습을 수행한다고 했을 때, 주변 패치에서 그냥 베껴오는 식의 cheating에 너무 취약함. 이렇게 되면, 결국 이미지 내부의 high-level의 semantic을 학습할 수가 없음.

그러나, 논문에서는 이를 아주 간단하게 해결함. → 단순 cheating이 불가능할 정도로 아주 많은 부분을 마스킹하면 됨.
이를 통해 이미지 내 존재하는 spatial redundancy를 제거하고, low-level image statistics를 넘어서 전체적인 representation을 학습할 수 있도록 challenging한 self-supervisory task를 만들어내게 됨.

  1. The autoencoder's decoder
    이 부분 역시 language와 달라지는 부분인데, vision에서는 pixel 단위로 복원을 하게 됨. 하지만, language와 같은 경우에는 단어 단위로 복원을 하게 됨 (앞서 말한 것처럼, 단어는 semantic information이 굉장히 풍부함). 따라서, BERT에서는 decoder의 선택이 그리 중요한 역할을 하지 않았지만 이미지에서는 decoder 디자인을 어떻게 설계하는지가 latent representation의 semantic level을 결정하는 데에 있어서 중요한 역할을 하게 됨.

위와 같은 분석을 바탕으로, 논문에서는 MAE라는 visual representation learning을 위한 simple, scalable, and effective masked autoencoder를 제안함.

asymmetric encoder-decoder 디자인(decoder가 encoder보다 lightweight)을 채택했으며, encoder의 경우 mask token 없이 visible token만을 encoding하며, decoder의 경우에는 mask token을 포함한 representation을 target pixel value로 복원하는 과정을 수행하게 됨.

encoder에서는 visible patch만을 활용하고, 가벼운 decoder 단에서만 mask token을 처리하기 때문에 연산량이 크게 줄어든다는 장점이 있음. 이러한 architectural design + high portion of random masking을 통해 정확도를 올릴 뿐 아니라 연산량 감소의 win-win 효과를 볼 수 있는 것. 이를 통해 메모리 소비도 줄일 뿐 아니라 pre-training 시간 감소로 이어지며 high scalability도 챙길 수 있게 되는 구조임.

실제로 ImageNet-1K에서 ViT-Large/Huge를 성공적으로 self-supervised pre-training시키는 데에 성공함. ViT-H의 경우 IN-1K에서 87.8%의 fine-tuning accuracy를 보여주며 IN-1K에서 학습시킨 모든 모델을 다 outperform하는 결과를 가져옴. 또한, OD나 InstSeg, SemSeg와 같은 downstream task에 transfer learning시킨 결과, supervised pre-training counterpart보다 더 좋은 결과를 얻음. 또한, 모델 scale을 키울 수록 성능이 크게 증가하는 추세를 보임 (high scalability).


2. Related Work

  • Masked image encoding: Context encoder의 경우 large missing regions를 convolutional networks를 이용해서 inpainting하는 작업을 수행함. ViT에서도 masked patch prediction을 study함. 가장 최근에는, BEiT가 discrete token을 예측하는 것을 제안함.
  • Self-supervised learning: 기존의 SSL은 이미지의 여러 뷰 간의 similarity (혹은 dissimilarity도 같이 학습) 하는 형식으로 연구가 진행되어옴. 이러한 방식은 data augmentation에 strongly dependent하지만, Autoencoding 방식은 컨셉 자체가 다른 방향을 추구하고 있기 때문에, 기존의 SSL 방식과는 다른 방식으로 작동. (이는 추후 experiment에서 보여줌)

3. Approach

앞서 말했던 것처럼 asymmetric한 design을 채택하고 있음. 이렇게 asymmetric한 디자인을 채택할 수 있었던 건 recognition task를 수행하는 건 encoder뿐이기 때문에 decoder가 encoder에 독립적으로 flexible하게 디자인이 될 수 있다는 점 참고.

  • high masking ratio; 여기서 masking할 패치는 uniform distribution에서 random sampling함 (uniform distribution인 게 맞는 게, normal 같은 데에서 sampling해오면 center에 치우치게 되니까 거기에서 bias가 생길 수 있음.)
  • shared mask token: mask token은 learnable하고 모든 mask된 위치에서 공유됨. 그러나 이러한 경우 mask token이 position 정보를 갖고 있지 않기 때문에 location 정보를 추가적으로 process해주기 위해서 positional embedding을 더해줘야함. 이러한 mask token은 decoder에서만 process된다는 점.
  • MAE encoder only takes visible patches (굉장히 큰 transformer 모델을 encoder로 쓴다고 하더라도 다루는 패치 수가 적기 때문에 연산량이 줄어들 수밖에 없음)
  • Lightweight Decoder: decoder에서는 mask token을 포함한 모든 토큰을 다 process하게 되지만 decoder는 encoder보다 훨씬 가벼워서 pre-training 시간을 줄일 수 있음. 실제로 decoder의 경우 encoder 대비 하나의 패치를 process하는 시간이 10% 미만으로 적음. 참고로 decoder도 ViT 구조임.)
  • Normalized pixels as a reconstruct target (MSE loss 적용)

Visualization

image

 

image

실제 random masking되는 input과, reconstruction, 원본 target을 시각화. 실제로 많은 부분을 random masking했음에도 불구하고 semantic을 잘 파악하여 이미지가 복원되었음을 알 수 있음. 물론 복원 퀄리티 자체가 객관적으로 좋다고 볼 수는 없음. sharp하지 못하고 blurry한 경향이 있으나, 이는 오히려 모델이 단순히 low-level information을 학습한 것이 아니라 high-level semantic을 잘 학습하여 복원을 해낸 것임을 시사함.

Figure3의 가장 마지막 colum의 두 triplet의 경우에는, target과는 다르지만 의미적으로 그럴 듯한 이미지를 만들어내었음을 확인. 처음에는 어떻게 target에서 사람 머리가 없는데 사람 머리를 파악하고 복원해냈을까 생각했는데 데이터셋 내 다른 이미지가 사람에 대한 이미지가 있으니까 거기서 배운 semantic이 저기에도 반영이 되었을 것으로 생각됨.


4. ImageNet Experiments

실험 세팅

  • IN1K
  • end-to-end fine-tuning or linear probing
  • report top-1 validation accuracy of a single 224 $\times$ 224 crop.
  • Baseline: ViT-Large (실제로 ViT-Large를 IN1K에 supervised 방식으로 scratch 학습시키는 건 까다롭고 strong regularization이 필요함. MAE pre-training으로 fine-tuning 시키면 이러한 과정 없이도 큰 성능 향상을 가져옴.)

image

4.1. Main Properties

Ablated MAE with ViT-L/16 on ImageNet-1K. If not specified, the default is: the decoder has a depth of 8 and width of 512, the reconstruction target is unnormalized pixels, the data augmentation is random resized cropping, the masking ratio is 75%, and the pre-training length is 800 epochs.

Masking ratio

NLP(BERT; 15%)와는 다르게 optimal masking ratio가 75%로 매우 높음. 또한, masking ratio에 따라 모델의 reconstruction이 달라짐. 이는 단순히 어떤 prior knowledge를 학습해서 그것으로부터 cheating하는 게 아니라 이미지 자체에서 추론을 수행하고 있음을 시사함. 이는 모델이 generalizable하다는 것을 보여줌.

image

아래의 Figure 5에서는 masking ratio에 따른 fine-tuning과 linear probing 성능을 보여주고 있음.

image

fine-tuning과 linear probing은 masking ratio에 따라 보여주는 경향성이 다름. fine-tuning은 masking ratio에 따른 편차가 상대적으로 적었지만, linear probing 같은 경우에는 masking ratio에 따른 편차가 상대적으로 큼. 또한, fine-tuning 같은 경우에는 40 ~ 80의 범위에서 적절히 optimal accuracy를 보여주었으나 (그래도 모든 지점에서 scratch 학습보다는 높게 나옴), linear probing 같은 경우에는 masking ratio가 증가함에 따라 성능도 함께 증가하는 추세를 보이다 70 ~ 75 사이에서 peak을 찍고, 감소하는 형태를 보여주었음.

Decoder design

image

decoder depth

fine-tuning accuracy 같은 경우에는 decoder depth에 영향을 거의 받지 않음. 심지어 decoder의 block이 한 개만 되더라도 기존의 supervised counterpart의 스크래치 학습보다 더 좋은 성능을 보여줌 (82.5 vs. 84.8). 반면, linear probing 같은 경우에는 decoder의 깊이가 깊어질 수록 성능이 더 좋아짐. 이는 MAE에서의 self-supervision이 pixel reconstruction이고, evaluation 시에는 classification (recognition) task를 수행하는 것이기 때문에 그 task의 gap에서 발생하는 특성이라고 볼 수 있음

MAE 학습 과정에서 decoder는, 특히 decoder의 말단에서는 representation을 raw pixel value로 바꾸는 과정을 주로 수행하게 될텐데, decoder가 얕아질 수록 애초에 decoder에 들어가는 input 자체가 어느 정도 복원이 금방 이루어지게끔 low-level 정보를 상대적으로 많이 담고 있도록 학습이 될 것임. 그렇게 되면, encoder를 freeze시키고 linear classifier만 학습하는 linear probing은 당연히 상대적으로 성능이 떨어지게 될 수밖에 없음. 따라서, decoder의 깊이를 늘릴 수록 decoder 말단에서 decoding하는 과정에 좀 더 specialized될 수 있기 때문에 decoder에 feed되는 representation 같은 경우에는 좀 더 abstract된 형태로 들어갈 수 있게 됨.

반면, fine-tuning 같은 경우에는 recognition task에의 adaptation을 수행하기 때문에 앞서 말한 task 간의 gap을 극복할 수 있음. Reconstruction만을 위해 기능하던 decoder가 recognition에 맞게 tune되기 때문에 decoder의 깊이에 상관 없이 (심지어, decoder block이 한 개만 되더라도) recognition에서 높은 fine-tuning accuracy를 보여줄 수 있음.

❓masked image modeling이 contrastive methods 대비 linear probing에 약세인 데에 대한 고찰
애초에 MAE가 학습하는 건 discriminative한 task가 아님. 따라서 feature 자체가 discriminative한 feature로 학습되지 않을 가능성이 높음. 반대로, contrastive methods는 학습 방식이 similarity를 학습하는 방식으로 가기 때문에 상대적으로 discriminative한 특성을 담은 feature가 학습될 가능성이 클 것임. 이게 Masked modeling이 linear probing에서 contrastive methods 대비 상대적 약세를 보이는 이유일 것 같음.

decoder width

Table 1b에서는 decoder width에 대한 실험 결과를 보여줌. width 같은 경우에는 depth 대비 fine-tuning이나 linear probing 모두 크게 sensitive하진 않았음. 다만, encoder의 너비인 1024 차원 대비 더 적은 차원에서 더 좋은 성능을 보여주었음 (narrower decoder)

전반적으로, decoder의 경우 lightweight(8개의 블록과 512차원으로 구성)하게 가져갈 수 있다는 결론을 내릴 수 있었음. 실제로 ViT-L(24 blocks, 1024-d)인 encoder와 비교했을 때 토큰 별로 9%의 FLOPs를 보여주었음.

Mask token

image

encoding 시 mask 사용하면 linear probing 성능 저하 (fine-tuning은 크게 영향 없음). 이는 deploy 시에는 masking되지 않은 온전한 이미지만을 처리하지만 학습 시에는 mask를 같이 처리하기 때문임. 이러한 gap때문에 frozen feature에서 operate하는 linear probing scenario에서는 성능이 잘 안나오는 것임. 이렇게 성능도 떨어지지만, masking을 하게 되면 encoder에서 모든 패치를 다 process해야되는 구조이기 때문에 연산 효율의 측면에서도 손해임. 실제로 FLOPs를 계산한 결과 encoder에서 mask token을 제외하게 되면 초당 연산량이 3.3배 정도 감소됨. 이는 아래의 table2에서도 볼 수 있듯이 전체적인 training 시간에서의 save를 할 수 있음. 연산량뿐 아니라 메모리 consumption도 줄어들기 때문에 더 큰 모델에서 training하거나 large-batch training을 통해 speed up하는 것 역시 가능해짐 (근데 어쨌든 디코더에서 모든 패치를 다 process하게 되니까 memory 병목은 결국에는 decoder 아닌가..?ㅎㅎ). 이러한 time & memory efficiency는 MAE가 매우 큰 모델에서 학습하는 것에 유리하게 함.

image

Reconstruction target

image

  • vs. normalized pixels: normalization하면 local contrast를 더 개선해서 성능이 올라감.
  • vs. PCA: degrades accuracy
    → High-frequency components are useful in MAE
  • pixel prediction (MAE) vs. token prediction (BEiT): BEiT의 방식인 DALLE pre-trained dVAE를 tokenizer로 활용함. 토큰 방식을 활용할 때에는 CrossEntropy Loss를 활용함. unnormalized pixel을 predict하는 방식과 비교하면 token prediction이 0.4% 정도의 fine-tuning accuracy 개선을 이끌었지만, normalized pixel에서는 차이가 거의 없음. 또한, linear probing accuracy는 더 줄어들었음. Tokenization을 활용하게 되면 dVAE를 학습시키기 위한 과정 (시간, 데이터, 메모리, ...)이 필요하게 됨. 이를 통해 성능이나 속도 면에서 추가적인 이점이 없는 데에 반해, MAE는 pixel-level reconstruction을 통해 더 간단하고 효율적으로 동일 혹은 더 좋은 성능을 낼 수 있음.

Data augmentation

image

기존의 self-supervised learning 방법론 (contrastive methods)들은 본질적으로 augmentation에 대한 의존도가 매우 높음 (augmentation 없이는 trivial solution으로 collapse할 것임이 거의 자명한 수준). 하지만, MAE 같은 경우에는 단순한 fixed size crop만으로도 높은 accuracy를 보여줌 (SimCLR나 BYOL 같은 경우에는 cropping만 적용하게 되면 문제가 성능이 각각 28%, 13% 하락할 정도로 기존 방법론들은 augmentation에 대한 의존도가 높음). 심지어, augmentation을 아무 것도 적용하지 않았음(only center-crop, no flipping)에도 fine-tuning accuracy 84.0, linear probing accuracy 65.7로 준수한 성능을 보여줌.

이는 masking 작업 자체가 매 iteration마다 random하게 적용이 되기 때문에 data augmentation로 작용하는 것으로 볼 수 있음 (물론 논문에서 이렇게 말한 건 아니긴 하지만, 이 random-masking 자체가 cut-out의 연장선으로 볼 수 있다고 생각하기 때문). 매 iteration마다 random masking이 다르게 적용되기 때문에 iteration마다 다른 sample이 모델에 feed되고 이를 통해 충분히 pretext task가 어려워지고, augmentation이 주는 regularization 효과를 주기 때문에 less augmentation을 요구하게 됨.

Mask sampling strategy

image

 

image

  • block-wise masking strategy (BEiT 방식): tends to remove large blocks. 50%의 masking ratio에서는 좋은 성능을 보여줬으나, 75%로 증가시키면 성능 하락. loss가 전반적으로 더 높게 관찰된 걸 보면, random masking보다 더 어려운 태스크로 보임.
  • grid-wise sampling: 4개의 패치마다 하나는 살리는 형식. reconstruction loss가 더 낮았고 (더 쉬운 태스크임을 indicate), 따라서 resulting reconstruction도 더 sharp했음. 하지만, representation quality는 더 떨어짐.

간단한 random sampling이 MAE의 경우에는 가장 잘 작동함. 성능이 가장 좋았을 뿐 아니라, speedup 측면에서도 도움됨.

Training Schedule

image

더 오래 train할 수록 accuracy가 지속적으로 개선. 1600 epoch에서도 linear probing acc.의 saturation이 관찰되지 않음. 이는 contrastive learning methods (e.g., Moco v3)가 ViT-L의 경우 300 epochs에서 satruate되었던 결과와는 다름. MAE encoder의 경우 epoch 별로 25%의 패치만을 보지만, contrastive learning의 경우에는 encoder가 epoch 별로 최소 200%의 패치를 보게 된다는 점에서 아마 그 차이가 발생할 것.

4.2. Comparisons with Previous Results

Comparisons with self-supervised methods

image

compare fine-tuning results of self-supervised ViTs models. Base 모델의 경우 방법론 별 차이가 적었지만, 모델 크기가 커질 수록 성능의 차이가 커짐 (큰 모델에서는 overfitting을 줄이는 게 관건임을 시사). MAE의 경우에는 scale up이 쉽게 됨을 알 수 있었음 (성능이 모델 크기가 커짐에 따라 지속적으로 증가). 추가적인 데이터나 개선된 아키텍처 구조 없이 Vanilla ViT + IN1K only로 ViT-H/448에서 87.8%의 fine-tuning accuracy를 보여줌.

BEiT의 경우, pixel reconstruction을 하면 ViT-Base에서 1.8%의 성능 하락이 일어났는데, MAE는 pixel reconstruction으로도 높은 성능을 보여주었다 (이게 더 simple하고 fast함을 강조함)

Comparisons with supervised pre-training

image


ViT-L의 경우에는 IN1K에서 supervised training을 거치면 성능이 떨어지거나 혹은 saturation이 발생. 그러나, MAE 같은 경우에는 모델 사이즈를 키우게 되더라도 성능이 지속적으로 증가함. → MAE의 경우 모델 사이즈를 scale up하는 데에 유리하다.

4.3. Partial Fine-tuning

image

linear probing과 fine-tuning accuracy 간 연관성이 크게 없음. Linear probing이 SSL에서 지난 몇 년 간 evaluation protocol로 인기가 많긴 했지만, 이는 feature의 non-linearity를 반영하여 평가하지 못함 (딥러닝이 애초에 non-linearity를 기반으로 성장한 분야임에도 불구하고). 이에 논문에서는 partial fine-tuning protocol (마지막 몇 레이어만을 fine-tune)을 바탕으로 실험을 진행함. Figure 9를 보면, MoCo v3와 비교했을 때, linear probing을 수행했을 때는 MoCo v3가 더 성능이 좋았지만, 하나의 블록만을(even half block) fine-tuning하더라도 accuracy가 급증하여 MoCo를 추월함(이후로 쭉 추월하는 추세)을 알 수 있음. 일부분만(4개) fine-tuning해도 full fine-tuning에 버금가는 성능을 보여줌. 이는 MAE가 MoCo v3 대비 less linearly separable한 feature를 학습하지만, 더 강력한 non-linear feature를 학습했다고 해석할 수 있음. 이는 representation quality를 평가할 때에 단순히 linear separability만을 평가지표로 삼기는 어려움을 보여주고, 실제로 SimSiam 논문과 같은 경우, linear probing accuracy가 높다고 해서 transferability가 좋다고 할 수는 없음을 실험적으로 보여준 바가 있음. NLP에서도 linear evaluation은 pre-training을 benchmarking할 때에 많이 쓰이지 않는 방식임.


5. Transfer Learning Experiments

pre-trained model이 downstream tasks에 transfer learning이 잘 되는지 평가함.

Object detection and segmentation

image


Mask R-CNN 구조를 채택하여 성능 평가를 수행한 결과, token 기반의 BEiT와 성능이 유사하거나 더 좋았음 (하지만, MAE가 simpler and faster 하다는 점 참고). supervised나 MoCo v3보다 더 좋은 결과.

Semantic segmentation

image


UperNet 구조를 사용해서 실험. 역시, MAE가 비교군 중 가장 높은 성능을 보였고, supervised backbone의 성능 대비 3.7% (ViT-L 기준) 개선함.

Classification tasks

image


다른 classification benchmark에서의 성능을 평가한 결과, previous best 결과보다 큰 폭으로 개선됨을 알 수 있엄 (특히 iNaturalist 경우 더더욱). Places 벤치마크 같은 경우에는 MAE는 IN1K만으로 학습한 결과임에도 불구하고 훨씬 많은 양의 데이터로 학습된 기존 결과보다 더 좋은 성능이 나왔다는 점.

Pixels vs. tokens

image


Transfer learning에서도 pixel reconstruction과 token reconstruction 결과를 비교함. 앞선 실험 결과에서 pixel reconstruction이 token reconstruction보다 더 효율적이면서도 더 좋은 성능을 보였음을 알 수 있었음 (normalized pixel reconstruction의 경우). 실제로 transfer learning에서도 비슷한 결과가 나옴. MAE의 reconstruction target을 pixel이 아닌 dVAE token으로 변경한 결과, unnormalized pixel 대비 더 좋긴 했으나 normalized pixel 간의 성능 차이는 통계적으로 유의하지 않았음. 하지만, 앞서 말했던 것처럼 pixel reconstruction이 token reconstruction 대비 효율적임. 따라서, MAE에서는 tokenization이 굳이 필요한 작업이 아님을 또다시 confirm.


6. Discussion and Conclusion

NLP와 비슷한 방식의 masked autoencoding 방식의 self-supervised pretraining method를 제안함. 이는 IN1K recognition과 transfer learning에서 효과적이며, computationally efficient하며, 모델 크기를 scale up하는 데에 매우 유리함 (지속적인 성능 증가 추세를 보여줌). 이는 앞으로는 Vision 역시 NLP와 비슷한 방향으로 발전해나갈 수 있음을 시사함.

Strengths

  1. 성공적인(high fine-tuning accuracy) masked autoencoding 적용 to self-supervised learning in computer vision
  2. 빠른 속도 & 적은 training 시간 & high scalability
  3. 다양한 downstream task에 transfer가 성공적
  4. 기존 SSL과는 다르게 large-scale model에서도 학습 가능 (이게 high scalability와 이어지면서 big model에서의 학습으로 학습 성능 개선이 가능해지는 느낌으로 갈 수 있을 것 같음 → NLP 트렌드 따라가는 것처럼)

Weaknesses

  1. Pixel reconstruction이 더 효율적임을 보여주긴 했으나, multi-modality를 활용하는 측면으로 연구를 확장시킨다고 할 때는 (개인적으로 이게 좀 더 발전적인 방향이라고 생각하기도 하고) tokenization 방식이 더 합리적인 방식으로 보임. 다만, 이러한 discrete token을 이미지에 어떻게 효율적으로 적용할 수 있느냐는 조금 더 고민해야 할 방향이라고 생각함.

Personal Thought

개인적으로, 전달하고자하는 바가 매우 명확하고 아주 simple하게 기존에 해결하지 못했던 문제를 해결한 논문이라고 생각함. 하나의 paradigm shift (From contrastive to MIM)라고 볼 수 있는 논문이었음. Contrastive methods가 겪는 collapse 문제도 Masked modeling을 사용하면 자유로울 수 있고, 또 다른 modality와의 통합성이 좀 더 커질 것으로 생각됨. 실제로 pre-training에 드는 데이터나 시간도 많이 save될 수 있다는 점에서 굉장히 competitive하다고 생각이 듦.

논문에서 제기한 linear probing에 대한 의문 또한 굉장히 합리적이라고 생각함. 실제로 ssl이 사용되는 목적을 생각하면 transferability가 조금 더 초점에 맞춰서 evaluation을 수행해야하지 않을까 하는 생각이 들었고, partial fine-tuning에 대한 실험 결과를 보면서 정말 하나의 블록만 fine-tune을 시키더라도 저렇게 잘 adapt가 된다는 게 좀 신기했음.

전반적으로 fine-tuning을 시킬 경우에는 아키텍처 디자인에 굉장히 robust한 걸 볼 수 있었는데 이게 masked modeling의 효과인 건가 싶었음..좀 더 궁금한 건 이러한 부분이 full fine-tuning이 아니라 partial fine-tuning에서도 이어지는 기조일까? 하는 생각.

Writing 역시 좋았음. NLP에서 성공적이었던 것이 왜 Vision에서는 지지부진한지에 대한 고민에서부터 출발해서 나름대로의 해답을 바탕으로 solution을 도출해낸 과정이 굉장히 잘 드러나있었고 실험 결과에 대한 해석 또한 잘 드러나있었던 것 같음. 논문을 읽다 보면 tech report 같이 결과만 쭉 나열하는 경우가 많은데 (솔직히 나쁘다곤 생각하지 않음. 전달하고자 하는 실험 결과는 많지만 페이지 수가 적기 때문이라고 생각해서) Masked modeling 기반의 방법론이 왜 linear probing에는 제대로 잘 안 먹히는지, decoder depth가 왜 linear probing에서 중요한 역할을 하는지, mask token을 encoder에서 process하게 될 경우 왜 linear probing 성능이 하락하는지 등등에 대한 통찰이 좋았던 것 같음.

조금 궁금한 점은, encoder와 decoder가 독립적으로 적용되면서 약간 flow에 break가 생기는 느낌이었음. encoder에 대한 information propagation이 어떤 식으로 작용하는지가 아직 잘 와닿지는 않는 것 같음.

300x250