-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Labels
Description
Paper
Learning Transferable Visual Models From Natural Language Supervision (a.k.a. CoOp)
Summary
CLIP과 같이, VLM의 Contrastive Learning 방법론 중 하나임. 11가지 Dataset에서 높은 성능을 보여줌.
다만, Noise가 있는 데이터셋에서는 성능이 좋지는 않음 (ex Food101)
learnable vector(Fig1의 learnable context)를 활용하여, Prompt Engineering을 도와주는 Context Optimizer를 제시함.
CLIP과 Image Encoder는 동일하지만, Text Encoder에서 learnable context를 사용하는데, 위의 Fig1은 Class가 우측에 놓여있지만, 유연하게 놓일 수 있음을 수식에서 설명함.

Strength
- learnable vector라는 새로운 방법을 제시함.
- 11가지 데이터셋에서 상당히 높은 성능을 보여줌.
- few shot으로 학습한다는 점에서 저비용 GPU (그래서 CVPR 떨어진듯)
Weakness
- fixed vector가 아니기에, interpretability가 적음
- Noisy dataset에서 부적합
Speaker
WongiPark
Reactions are currently unavailable
