Müller, et al. (2026). Olaf: Bringing an Animated Character to Life in the Physical World. Disney Research 2026. 해당 논문을 바탕으로 작성되었습니다.


부드러운 이동을 위해 path frame 방법이 사용되었습니다. path frame은 쉽게 말해 로봇 몸체에게 이동해야 할 방향을 조금씩 제공하는 방법입니다. 작은 목표들을 순차적으로 제시하는 path frame은 또하 전역 좌표계(space frame)가 아닌 로봇 기준 좌표계(body frame)를 사용함으로써 더 부드러운 이동을 유도합니다.
애니메이션 특유의 움직임을 재현하기 위해 로봇 제어에 있어 대규모 모션 캡처(MoCap) 데이터가 아닌, 애니메이터의 수작업 데이터를 활용했습니다. 애니메이터들이 만든 모션 데이터는 gait generation tool을 거쳐 물리제약을 반영한 강화학습 데이터로 정제됩니다.
지수형 보상 (Exponential Reward) : 몸통 및 전역 움직임 ex. 몸통 수평 위치 (Torso position xy)
| $\exp(-200.0 \cdot | p_{x,y} - \hat{p}_{x,y} | _2^2)$ |
가중치 $k=200.0$으로 가장 높습니다. 이는 로봇의 중심 위치가 레퍼런스에서 조금만 벗어나도 엄청난 페널티를 주어, 위치 추종을 최우선으로 강제한다는 의미입니다.

CBF의 해결책: CBF는 “온도가 80도를 넘으면 안 된다”는 먼 미래의 장기적인 제약 조건을, “지금 당장 온도 상승률을 이만큼 이하로 낮춰라”라는 즉각적이고 국소적인 조건으로 변환해 줍니다. 덕분에 에이전트는 먼 미래를 예측할 필요 없이 매 순간 주어지는 CBF 제약만 지키면 자연스럽게 과열을 피하는 방법을 학습할 수 있습니다.
CBF는 시스템의 상태가 안전 집합(Safe Set) 안에 머물도록 보장합니다. 시스템의 상태 $x$가 $h(x) \ge 0$을 만족하면 ‘안전하다’고 봅니다. 반대로 $h(x) = 0$은 안전 구역의 경계선입니다.
CBF의 핵심 조건: 시스템이 경계선에 다가갈 때, 경계선을 넘어가지 못하도록 상태 변화율(속도)을 제한해야 합니다.
\[\dot{h}(x, u) + \gamma h(x) \ge 0\]경계선($h(x)=0$)에 가까워질수록, 경계선을 향해 돌진하는 속도($\dot{h}$)를 강제로 줄여라.
\[h(T) = T_{max} - T \ge 0\] \[-\dot{T} + \gamma (T_{max} - T) \ge 0\] \[\dot{T} \le \gamma (T_{max} - T)\][ \dot{T} = -\alpha(T - T_{\text{ambient}}) + \beta\tau^2 ]
