NLP #CV #컴퓨터비전 #논문리뷰 #multimodal #CLIP리뷰 #CLIP1 [논문 리뷰]CLIP - Learning Transferable Visual Models From Natural Language Supervision CLIP 이번에는 21년에 발표한 CLIP논문을 리뷰해 보겠다. CLIP은 인풋으로 텍스트와 이미지쌍을 넣어주는데, 이렇게 다른 형태의 인풋을 함께 다루는 문제를 멀티모달(Multi-modal)이라고 한다. CLIP은 openAI에서 나온 논문인데, GPT-3를 공개한 후 조금뒤에 이 논문이 공개되었다. 기존의 분류모델의 한계를 NLP를 이용해 돌파하려는 시도를 담은 논문이다. Abstract 최신의 CV 시스템들은 미리 정의된 카테고리의 데이터셋들을 예측하기 위해 학습되어 왔다. 이러한 경직된 상태의 supervision방식은 그들의 generality와 usability를 제한했는데, 이는 다른 visual concept을 구체화하기 위해서는 추가적인 라벨링된 데이터가 필요하기 때문이다. 이러한 문제.. 2023. 8. 11. 이전 1 다음