본 포스팅은 김태진 외 7인. 『캐글 메달리스트가 알려주는 캐글 노하우』. 길벗, 2023. 책을 읽고 작성되었습니다.

저는 최근에 kaggle에 공지된 Deep Past Challenge에 관심이 생긴데다 흥미로운 접근법을 찾은거 같아 참여하기로 결심했고 첫 캐글대회인 만큼 막막함도 없지 않아 있어 여러 자료를 탐색하다 고르게 되었습니다.

tmi지만 고대 문자 아카드어를 영어로 번역하는 Deep Past Challenge의 상금은 무려 5만 달러입니다.. (환율을 고려하면 이게 얼마야) 상금이 5만 달러라니 얼마나 어려울지 가늠하기도 어렵네요!!

책이 출판된 지 약 3년 정도 되었고, 책에서 다루는 대회도 2018~2019에 머물러 있어 최신 데이터 분석 기법이나 모델링 방법론들은 부재할 수 있습니다. (국내 서적 중에서는 그나마 최신 ..) 기초 개념은 더욱 부재한데, 입문자를 위한 별도 개념설명 없이 대회 진행 흐름을 6개 사례로 소개하고 있습니다. 기초적인 내용도 중요하지만 이런 사례 중심 구성이 고수들의 창의력을 온전히 담았겠다는 기대가 무척 컸어요!

Quick, Draw! Doodle Recognition

Temporal Encoding using RGB channel

OOF : Out of Fold

데이터 분할 및 학습

서로 다른 모델 4개에 대해 각 모델이 서로 다른 훈련 및 검증 데이터셋으로 학습시킵니다. 앙상블 및 스태킹 모델은 개별 모델이 상관도가 적을 때 높은 점수 이득을 얻을 수 있다고 하네요.

과적합 방지를 위한 학습 데이터 셔플 : 예기치 못한 학습 중단 발생시 동일한 데이터로 여러 번 학습하게 되므로 매 학습마다 훈련 데이터 순서를 섞어줌

가중 평균 앙상블 모델

1D CNN 레이어가 추가된 가중 평균 앙상블 모델

$N$개의 모델 예측값을 $x_1, x_2, \dots, x_n$이라 할 때, 1D CNN 레이어 1개(커널 크기 1, 편향 $b$)를 통과한 결과 $y$는 다음과 같습니다.

\[y = \sigma \left( \sum_{i=1}^{n} (w_i \cdot x_i) + b \right)\]

이는 수학적으로 Fully Connected Layer를 쓴 것과 동일합니다. 참고로 가중치에 해당하는 커널은 입력 채널만큼 있기 때문에 모델 4개에 대해 4개의 커널, 즉 가중치 4개가 생기게 됩니다.