본 포스팅은 김태진 외 7인. 『캐글 메달리스트가 알려주는 캐글 노하우』. 길벗, 2023. 책을 읽고 작성되었습니다.
데이터 분석과 인공지능 분야에서 데이터에 대한 이해는 중요합니다. 학부연구생의 주된 역할(?)이라 같잖은 노동으로 느껴질때도 있었지만 숫자놀음, 조금 더 품격을 갖춰서 ‘분석’의 영역으로 들어가게 되었을때 비로소 해방을 느꼈던 거 같습니다. (수집의 영역은 아직 노동으로 인지하고 있습니다 어떻게 하면 빠져들 수 있을까요? ㅎㅎ)
사실 단어 ‘분석’과 결이 비슷하지만 더 여유롭고, 예술적이고, 관대한 ‘관찰’이라는 단어를 더 선호합니다. 여담으로 제가 좋아하는 힙합가수 지코는 예능프로그램 아는형님에서 본인의 특기로 관찰하기를 꼽은 적 있습니다. 예전에 시 쓰는 법에 대한 책을 읽었을때도 시인의 주요 덕목 중 하나가 관찰하기였던 기억이 납니다. 이처럼 관찰은 창의력이 중요한 예술가에게 중요한 덕목인데 ‘유추’를 위한 도구를 제공하기도 합니다. 예를 들어 방충망을 주의깊게 보면 격자가 난 모양을 보고 감옥이나 체스판을 생각했을 수도 있습니다. 격자라는 방충망의 추상화된 특징이 추상화된 체스판의 특징과 접점을 맺었으므로 유추의 길을 열었다고 볼 수 있습니다.
결론 : 저는 관찰, 분석의 중요성을 느끼는 것을 넘어 좋아한다! 아직 배운 내용을 정리하는 단계이지만 예술가의 관찰력이 학부인턴, 프로 캐글러, 인공지능 연구원의 분석력과도 접점을 맺을 수 있는지 탐구해봐야겠습니다.
손글씨 분류의 저주
NULL 값이 존재하지 않더라도 값을 관찰했을 때 특정 값이 비정상적으로 많이 관찰되면 데이터 제공측에서 NULL을 임의의 값으로 채웠을 수도 있습니다.
NULL 값은 단순 평균, INF 값으로 채우기보다 NULL이 등장한 원인과 의미르 먼저 파악하는게 좋습니다.
데이터 명세서에 범주형/수치형 여부가 투명하게 드러나지 않는 경우도 있습니다. 데이터 특성상 투명하게 공개하기 무리가 있어 일부 익명화하거나 불분명하게 제공하는 경우입니다.
nunique 함수로 중복되지 않는 값의 개수를 살펴볼 수 있습니다. 특히, 고유값 개수가 다른 속성과 비교해 현저히 적을 경우 그 속성을 범주형 변수로의 사용을 고려할 수 있습니다. IG 대회의 경우 wheezy-copper-turtle-magic 변수가 512개의 고유값을 갖고 있었는데 각 고유값에 해당하는 데이터 개수도 균일해 범주형 변수로 활용하기도 했습니다.
범주형 변수는 각 카테고리마다 동작 매커니즘이 상이할 것이므로 범주형 값을 예측하는 모델을 먼저 통과한 후에 범주형 값에 따라 다른 모델을 통과하는 파이프라인을 설계할 수 있습니다. 이때 2단계에서 필요한 모델의 개수는 카테고리 개수만큼인 512개가 됩니다.
pandas의 describe() 함수는 mean, std 등 기본적인 통계 값을 확인하는데 이용됩니다.
각 항목마다 정답 값 0,1에 대해 히스토그램을 그려보면 정답 값에 따라 분포가 달라지는 속성(열)이 중요한 피터가 되는 경우가 많다고 하네요. PCA에서 데이터 분포의 분산을 가장 크게 만드는 축을 찾는 과정과 유사하다고 느꼈습니다.
🛠️ Writing in progress 🛠️