Skip to content

[20230406] Weekly VLM1 - CoOp #2

@kalelpark

Description

@kalelpark

Paper
Learning Transferable Visual Models From Natural Language Supervision (a.k.a. CoOp)

Summary
CLIP과 같이, VLM의 Contrastive Learning 방법론 중 하나임. 11가지 Dataset에서 높은 성능을 보여줌.
다만, Noise가 있는 데이터셋에서는 성능이 좋지는 않음 (ex Food101)
learnable vector(Fig1의 learnable context)를 활용하여, Prompt Engineering을 도와주는 Context Optimizer를 제시함.

(Fig1)
image

CLIP과 Image Encoder는 동일하지만, Text Encoder에서 learnable context를 사용하는데, 위의 Fig1은 Class가 우측에 놓여있지만, 유연하게 놓일 수 있음을 수식에서 설명함.
image

Strength

  • learnable vector라는 새로운 방법을 제시함.
  • 11가지 데이터셋에서 상당히 높은 성능을 보여줌.
  • few shot으로 학습한다는 점에서 저비용 GPU (그래서 CVPR 떨어진듯)

Weakness

  • fixed vector가 아니기에, interpretability가 적음
  • Noisy dataset에서 부적합

Speaker
WongiPark

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions