[20230406] Weekly VLM1 - CoOp

Paper
[Learning Transferable Visual Models From Natural Language Supervision](https://arxiv.org/abs/2109.01134#) (a.k.a. CoOp)

**Summary**
CLIP과 같이, VLM의 Contrastive Learning 방법론 중 하나임. 11가지 Dataset에서 높은 성능을 보여줌.
다만, Noise가 있는 데이터셋에서는 성능이 좋지는 않음 (ex Food101)
learnable vector(Fig1의 learnable context)를 활용하여, Prompt Engineering을 도와주는 Context Optimizer를 제시함.

**(Fig1)**
![image](https://user-images.githubusercontent.com/86551201/230242988-f99362f4-9b2d-4231-b7d4-c11316a12b24.png)

**CLIP과 Image Encoder는 동일하지만, Text Encoder에서 learnable context를 사용하는데, 위의 Fig1은 Class가 우측에 놓여있지만, 유연하게 놓일 수 있음을 수식에서 설명함.**
![image](https://user-images.githubusercontent.com/86551201/230243676-890d1e5f-b488-4b79-bfa8-d8be9159c464.png)

**Strength**
- learnable vector라는 새로운 방법을 제시함.
- 11가지 데이터셋에서 상당히 높은 성능을 보여줌.
- few shot으로 학습한다는 점에서 저비용 GPU (그래서 CVPR 떨어진듯)

**Weakness**
- fixed vector가 아니기에, interpretability가 적음
- Noisy dataset에서 부적합


**Speaker**
WongiPark

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20230406] Weekly VLM1 - CoOp #2

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[20230406] Weekly VLM1 - CoOp #2

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions