With the recent progress of VLMs, there has been growing recognition of the relatively limited exploration compared to pretrained backbones on ImageNet

backbone이라는 말의 의미 백본은 입력 이미지에서 high-level feature를 뽑아주는 핵심 피처 추출기(예: ResNet, ViT)를 말합니다. 그 위에 얇은 헤드(Linear classifier, MLP, decoder 등)만 새로 얹어서 분류·세그멘테이션·도메인 적응 같은 다운스트림 작업을 합니다.

“CLIP을 backbone으로 쓴다”의 구체적인 의미 CLIP은 이미지 인코더(ResNet/ViT)와 텍스트 인코더가 같이 있는 VLM인데, 여기서 이미지 인코더 부분을 일반 CNN 백본처럼 가져다가 feature extractor로 쓰는 것을 말합니다.