Wang, Yating, et al. (2025). VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers. ICCV 2025. 해당 논문을 바탕으로 작성되었습니다.