know-how from kaggle medalists 2 : EDA Basics, Feature Engineering

February 1st , 2026

본 포스팅은 김태진 외 7인. 『캐글 메달리스트가 알려주는 캐글 노하우』. 길벗, 2023. 책을 읽고 작성되었습니다.

데이터 분석과 인공지능 분야에서 데이터에 대한 이해는 중요합니다. 학부연구생의 주된 역할(?)이라 같잖은 노동으로 느껴질때도 있었지만 숫자놀음, 조금 더 품격을 갖춰서 ‘분석’의 영역으로 들어가게 되었을때 비로소 해방을 느꼈던 거 같습니다. (수집의 영역은 아직 노동으로 인지하고 있습니다 어떻게 하면 빠져들 수 있을까요? ㅎㅎ)

사실 단어 ‘분석’과 결이 비슷하지만 더 여유롭고, 예술적이고, 관대한 ‘관찰’이라는 단어를 더 선호합니다. 여담으로 제가 좋아하는 힙합가수 지코는 예능프로그램 아는형님에서 본인의 특기로 관찰하기를 꼽은 적 있습니다. 예전에 시 쓰는 법에 대한 책을 읽었을때도 시인의 주요 덕목 중 하나가 관찰하기였던 기억이 납니다. 이처럼 관찰은 창의력이 중요한 예술가에게 중요한 덕목인데 ‘유추’를 위한 도구를 제공하기도 합니다. 예를 들어 방충망을 주의깊게 보면 격자가 난 모양을 보고 감옥이나 체스판을 생각했을 수도 있습니다. 격자라는 방충망의 추상화된 특징이 추상화된 체스판의 특징과 접점을 맺었으므로 유추의 길을 열었다고 볼 수 있습니다.

결론 : 저는 관찰, 분석의 중요성을 느끼는 것을 넘어 좋아한다! 아직 배운 내용을 정리하는 단계이지만 예술가의 관찰력이 학부인턴, 프로 캐글러, 인공지능 연구원의 분석력과도 접점을 맺을 수 있는지 탐구해봐야겠습니다.

Instant Gratification (2019)

정답 값의 비율

손글씨 분류의 저주

정답 값 누출

NULL의 존재 (너의 존재)

NULL 값이 존재하지 않더라도 값을 관찰했을 때 특정 값이 비정상적으로 많이 관찰되면 데이터 제공측에서 NULL을 임의의 값으로 채웠을 수도 있습니다.

NULL 값은 단순 평균, INF 값으로 채우기보다 NULL이 등장한 원인과 의미르 먼저 파악하는게 좋습니다.

범수형 변수와 수치형 변수

데이터 명세서에 범주형/수치형 여부가 투명하게 드러나지 않는 경우도 있습니다. 데이터 특성상 투명하게 공개하기 무리가 있어 일부 익명화하거나 불분명하게 제공하는 경우입니다.

값의 중복

nunique 함수로 중복되지 않는 값의 개수를 살펴볼 수 있습니다. 특히, 고유값 개수가 다른 속성과 비교해 현저히 적을 경우 그 속성을 범주형 변수로의 사용을 고려할 수 있습니다. IG 대회의 경우 wheezy-copper-turtle-magic 변수가 512개의 고유값을 갖고 있었는데 각 고유값에 해당하는 데이터 개수도 균일해 범주형 변수로 활용하기도 했습니다.

범주형 변수는 각 카테고리마다 동작 매커니즘이 상이할 것이므로 범주형 값을 예측하는 모델을 먼저 통과한 후에 범주형 값에 따라 다른 모델을 통과하는 파이프라인을 설계할 수 있습니다. 이때 2단계에서 필요한 모델의 개수는 카테고리 개수만큼인 512개가 됩니다.

히트맵

pandas의 describe() 함수는 mean, std 등 기본적인 통계 값을 확인하는데 이용됩니다.

각 항목마다 정답 값 0,1에 대해 히스토그램을 그려보면 정답 값에 따라 분포가 달라지는 속성(열)이 중요한 피터가 되는 경우가 많다고 하네요. PCA에서 데이터 분포의 분산을 가장 크게 만드는 축을 찾는 과정과 유사하다고 느꼈습니다.

스태킹

SIIM-ACR Pneumothorax Segmentation (2019)

🛠️ Writing in progress 🛠️