
Latent Actions이란 첫 번째 단계인 ‘Latent Action Quantization’을 통해 정의된 이산적인 토큰입니다. 이는 로봇의 관절 각도 같은 물리적 수치가 아니라, 비디오의 시각적 변화(예: 팔이 위로 올라감, 물체가 이동함)를 대표하는 심볼이라고 할 수 있습니다. Latent Action Pretraining의 학습 목표는 현재 이미지 x_t와 언어 지시문이 주어졌을 때, 다음 상태로 넘어가기 위해 필요한 잠재 행동 z_t를 예측하는 것입니다.
보통 Behavior Cloning은 전문가의 실제 행동을 그대로 따라 하도록 학습하는 방식입니다. LAPA에서는 이를 확장하여 실제 액션 대신 잠재 액션을 모방하는데, 인터넷 비디오에는 로봇 제어 값이 없는 상황에서 VQ-VAE가 생성한 잠재 토큰을 정답 행동으로 간주하고, VLM이 이를 맞추도록 학습하게 합니다.
\[\mathcal{L} = \sum \log P_\theta(z_t | x_t, \text{Instruction})\]실제 로봇을 조종해서 얻은 Teleoperation 데이터는 수집이 매우 비싸지만, 유튜브 같은 일반 비디오 사용을 용이하게 해 확장성이 높아집니다. 또한 물리적 수치를 배우기 전에 “컵을 집으려면 손을 컵 쪽으로 뻗어야 한다”는 상위 수준의 전략을 먼저 익히게 됩니다. 그리고 이 논문에서는 OpenVLA와 같은 최신 모델보다 사전 학습 효율을 30배 이상 높이면서도 더 좋은 성능을 냈다고 밝히고 있습니다.
LAPA는 기존의 Video PreTraining와 비교하자면, VPT는 별도의 Inverse Dynamics Model을 써서 Pseudo-action 레이블을 만들지만, LAPA는 VQ-VAE를 통해 데이터 자체에서 잠재적인 행동 단위를 스스로 찾아낸다는 점에서 일반화 능력이 극대화됩니다.