[paper review] Latent Action Pretraining from Videos

alt text

Latent Action Pretraining

Latent Actions이란 첫 번째 단계인 ‘Latent Action Quantization’을 통해 정의된 이산적인 토큰입니다. 이는 로봇의 관절 각도 같은 물리적 수치가 아니라, 비디오의 시각적 변화(예: 팔이 위로 올라감, 물체가 이동함)를 대표하는 심볼이라고 할 수 있습니다. Latent Action Pretraining의 학습 목표는 현재 이미지 x_t​와 언어 지시문이 주어졌을 때, 다음 상태로 넘어가기 위해 필요한 잠재 행동 z_t​를 예측하는 것입니다.

보통 Behavior Cloning은 전문가의 실제 행동을 그대로 따라 하도록 학습하는 방식입니다. LAPA에서는 이를 확장하여 실제 액션 대신 잠재 액션을 모방하는데, 인터넷 비디오에는 로봇 제어 값이 없는 상황에서 VQ-VAE가 생성한 잠재 토큰을 정답 행동으로 간주하고, VLM이 이를 맞추도록 학습하게 합니다.

\[\mathcal{L} = \sum \log P_\theta(z_t | x_t, \text{Instruction})\]

주요 이점

실제 로봇을 조종해서 얻은 Teleoperation 데이터는 수집이 매우 비싸지만, 유튜브 같은 일반 비디오 사용을 용이하게 해 확장성이 높아집니다. 또한 물리적 수치를 배우기 전에 “컵을 집으려면 손을 컵 쪽으로 뻗어야 한다”는 상위 수준의 전략을 먼저 익히게 됩니다. 그리고 이 논문에서는 OpenVLA와 같은 최신 모델보다 사전 학습 효율을 30배 이상 높이면서도 더 좋은 성능을 냈다고 밝히고 있습니다.

LAPA는 기존의 Video PreTraining와 비교하자면, VPT는 별도의 Inverse Dynamics Model을 써서 Pseudo-action 레이블을 만들지만, LAPA는 VQ-VAE를 통해 데이터 자체에서 잠재적인 행동 단위를 스스로 찾아낸다는 점에서 일반화 능력이 극대화됩니다.

Action Finetuning