ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 분석 :: Dacon 인구 데이터 기반 소득 예측 경진대회
    기타 2022. 4. 26. 23:43
    반응형

    나중에 데이터 분석이나 모델링을 더 열심히 공부하게되면? 카테고리 만들어서 빼야지

     

    할게 산더미인데 눈에 띄어서 한번 참가해보았다.

    https://dacon.io/competitions/official/235892/overview/description

     

    인구 데이터 기반 소득 예측 경진대회 - DACON

    좋아요는 1분 내에 한 번만 클릭 할 수 있습니다.

    dacon.io

     

    우선 DACON이라는 곳이 무엇이냐 하면, 우리나라 있는 kaggle 같은 곳이다.

    여러가지 대회가 있고 티어제도도 존재하고 상금이 걸려있는 대회도 많다

     

    내가 흥미를 느꼈던 점은, 대회들 중에 Dacon Basic이라는 태그가 달린 대회들이었다. 이런 대회에 참가하면 어떻게 데이터 분석과 모델링을 해 나아가야 하는지 설명들과 함께 기초적인 코드를 제공해준다.

     

    그래서 이번 인구 데이터 기반 소득 예측 경진대회에 참여해 보게 되었다.

    우선 대회는 주어진 데이터를 가지고 소득이 5만 달러 이상일지 아닐지를 예측하는 대회이다. 예측 정확률을 가지고 리더보드가 나오게되고 점수를 받게 된다.

     

    아직은 대회에서 준 가이드 코드밖에 짜보지 못했다. 사실 데이터분석에 대한 이해도가 거의없어서 내가 스스로 모델을 구상하고 라벨링을 하고 이럴 수준이 아직 안된다.

     

    이번 대회를 통해 배운 점은

    1. EDA 를 하는 방법

    - EDA라고 하면 막연히 데이터를 쳐다본다? 둘러본다? 정도로만 알고 있었는데 , 이번 대회를 통해 어떻게 피쳐들을 분석할 수 있는지에 대해 알 수 있었다. 범주형 데이터들을 어떻게 시각화하고 numeric 데이터는 어떻게 시각화 하고 이런것들? 그리고 feature들간에 상관관계를 분석할 수 있는 방법도 배웠다.

    2. Logistic Regression

    - 이거는 Linear Regression 방법 중 하나인데 범주형 데이터들로 분석할 때 쓰이는 방법론이라고 한다.

    3. Random Forest

    - 이거는 의사결정 트리 방법론 중 하나인데 트리를 하나로 만들어서 depth를 무작정 늘리면 overfitting이 심하게 되니까, 여러개의 임의의 트리를 만들어서 의사결정을 해나가는 방법론이라고 한다.

     

    사실 이번에 배운 모델들이 다 겉햝기라서 다시 깊이있게 공부를 해야 기록도하고 글도 쓸 수 있을 것 같다.

    하나 느낀거는 python은 참 역시 맘에 안든다. 맘에 안든다기보다 재수없어

    모델 다 이해못해도 그냥 있는 library만 가져와서 model.fit 어쩌고~ 하면 그냥 알아서 다 모델링 해준다 어이없어!

     

    지금 포트폴리오도만들어야되고 스프링공부도 다시해야대고 알고리즘도 해야되서 데이터 분석을 공부할 여유가 없지만... 이번 대회를 통해 한번쯤은 깊이 있게 공부해보고 싶다는 생각이 들었다!

     

    반응형

    댓글

Designed by Tistory.