Test-Time Apdaption (TTA)
Test-Time Adaptation for Combating Missing Modalities in Egocentric Videos (ICLR 2025)
비디오 환경에서 특정 모달리티(예: 오디오 또는 비전 일부)가 누락되었을 때 이를 TTA로 극복하는 방법론을 소개하며 멀티모달 모델의 불완전성과 실용성을 다룬다.
\[\theta^* = \arg \min_{\theta} \mathbb{E}_{x \sim S} \left[ \text{MI} \left( f_{\theta} (x; m) , m \right) + \text{KL} \left( f_{\theta} (x \mid M = \text{AV}) \Vert f_{\theta_0} (x \mid M = \text{AV}) \right) \right]\] \[\text{MI} \left( f_{\theta} (x; m) , m \right)\]테스트 중에 모든 정보가 포함된 샘플(AV)이 들어오면, MiDl은 의도적으로 정보를 누락시킨 상황(A만 있는 경우, V만 있는 경우)을 가정하여 세 가지 예측을 수행한다. 세 가지 상황에서 예측값이 서로 비슷해지도록 모델의 파라미터를 업데이트하며, 모델이 모든 모달리티를 관통하는 핵심적이고 공통적인 특징에 집중하게 한다.
TEST-TIME ADAPTATION FOR COMBATING MISSING MODALITIES IN EGOCENTRIC VIDEOS
MiDl의 핵심 구성 요소 분석 (Section 6.4)
MiDl의 손실 함수(Loss Function)는 두 가지 핵심 요소의 상호작용으로 이루어집니다. \mathcal{L}{LMiDl=λ1LMI+λ2LKL\mathcal{L}{MiDl} = \lambda_1 \mathcal{L}{MI} + \lambda_2 \mathcal{L}{KL}LMiDl=λ1LMI+λ2LKL
\mathcal{L}{MI}LMI\mathcal{L}{MI}LMI (Mutual Information Loss): 모델의 예측 결과와 현재 입력된 양상 종류 간의 상호 정보를 최소화합니다. 즉, 오디오만 있든 비디오만 있든 모델이 일관된 예측을 내놓도록 유도하여 특정 양상에 대한 의존도를 낮춥니다.
\mathcal{L}{KL}LKL\mathcal{L}{KL}LKL (Self-Distillation Loss): \text{KL}(f_\theta(x | M=AV) || f_{\theta_0}(x | M=AV))KL(fθ(x∣M=AV)∣∣fθ0(x∣M=AV))\text{KL}(f_\theta(x | M=AV) || f_{\theta_0}(x | M=AV))KL(fθ(x∣M=AV)∣∣fθ0(x∣M=AV)) 적응된 모델(f_\thetafθf_\thetafθ)의 예측이 원래의 사전 학습된 모델(f_{\theta_0}fθ0f_{\theta_0}fθ0)의 예측과 너무 멀어지지 않게 규제합니다. 이를 통해 모든 양상이 존재할 때의 기존 성능을 보존합니다.
실험 구성
- 기본 실험 구성: 온라인 평가 (Predict-then-Adapt)이 방식은 별도의 ‘검증용’ 데이터셋을 따로 떼어두고 나중에 확인하는 것이 아니라, 테스트 데이터 스트림이 들어오는 과정 자체가 실험입니다. (Section 3.2 참조)데이터 노출: 스트림 (S)에서 샘플 (x_t) (예: 비디오 한 토막)가 들어옵니다.예측 (추론): 현재 모델 (f_{\theta_t})가 레이블 (\hat{y}t)를 예측합니다. (이때의 정확도를 측정합니다)적응 (업데이트): 예측이 끝난 후, MiDl 알고리즘을 사용하여 모델 파라미터를 (\theta{t+1})로 업데이트합니다.반복: 다음 샘플 (x_{t+1})이 들어오면, 방금 업데이트된 모델((f_{\theta_{t+1}}))로 다시 1~3단계를 수행합니다.핵심: 모델은 데이터를 미리 보지 못하며, 한 번 예측한 데이터에 대해서만 사후에 학습합니다. 따라서 (t)가 커질수록(데이터를 많이 경험할수록) 모델의 성능이 점점 좋아지는 구조입니다.2. 장기 적응(LTA) 및 웜업(Warm-up) 실험 구성질문하신 “따로 검증한 것인가?”라는 의문에 가까운 방식은 이 시나리오들입니다. (Section 5.3, 5.4 참조)Warm-up 단계 (적응): Ego4D(도메인 외 데이터)나 훈련셋(도메인 내 데이터)을 레이블 없이 스트림으로 흘려보내 모델을 미리 적응시킵니다.Evaluation 단계 (검증): 그렇게 ‘예습’이 끝난 모델을 가지고, 실제 목표인 검증셋(Validation Set) 스트림에 투입하여 온라인 평가를 수행합니다.