목록Kaggle (4)
tak's data blog
전 게시글들은 kaggle 필사를 기준으로 진행하였습니다. 이번에는 직접 데이터를 살펴보고 분석해보는 과정으로 진행해보록 하겠습니다!! 참고 블로그 : ebbnflow.tistory.com/141?category=850456 [캐글] 중고차 가격 예측 모델2_Gradient Boost, Random Forest ● Gradient Boost Gradient Boosting Algorithm (GBM)은 회귀분석 또는 분류 분석을 수행할 수 있는 예측모형이며 예측모형의 앙상블 방법론 중 부스팅 계열에 속하는 알고리즘입니다. Gradient Boosting.. ebbnflow.tistory.com 데이터는 kaggle 중고차 가격 예측 대회를 참고하였습니다. 필요한 라이브러리들을 import하고 train데..
www.kaggle.com/c/home-credit-default-risk Home Credit Default Risk Can you predict how capable each applicant is of repaying a loan? www.kaggle.com 이번에 다룰 필사할 kaggle competition은 Home Credit Default Risk로 과거 대출 신청 데이터를 사용하여 신청자가 대출금을 상환할 수 있는지 여부를 예측하는 대회입니다. 참고 커널 : www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction Start Here: A Gentle Introduction Explore and run machine learning co..
저번주 santander에 이어서 이번주는 포르토 세구로에서 주최한 안전 운전자 예측 경진대회에대해 다루어 보겠습니다. 우선 '머신러닝 탐구생활' baseline을 기반으로 필사한점을 인지해주시기 바라겠습니다! 캐글 커널 주소 : www.kaggle.com/c/porto-seguro-safe-driver-prediction 대회의 평가 척도로는 [정규화 지니 계수]를 사용합니다. 간단하게 설명드리자면 불균형의 정도를 나타내는 통계학적 지수로, 지표는 경제 분야에서 소득별 부의 불균형 정도를 나타내는데 사용합니다. 지니 계수는 회색 gini index의 면적을 삼각형 전체의 면적으로 나눈 값을 의미합니다. 부의 불균형이 높을 수록 gini index영역은 더 커지고, 그에 따라 지니 계수 또한 높아질 것입..
예전에 kaggle 필사를 하면서 그 순간만 이해하고 기억이 오래가지 못해서 방학을 계기로 이번에 '머신러닝 탐구생활'이라는 책을 공부하기로 하였습니다. 처음 주제로 kaggle 'Santander Product Recommendation' 대회 필사내용과 느낀점을 공유해보고자 합니다! 처음으로 데이터를 살펴보자면 훈련 데이터에는 총 1,300만 개의 고객 데이터가 존재하며, 고객마다 48개의 변수가 존재합니다. info 결과로 fecha_dato변수는 날짜 전용 data type이 아닌 object 형태였고, 고객의 나이를 기록하는 age변수는 int형태가 아닌 object형태인것을 확인 할 수 있었다. 이 데이터 뿐만 아니라 다른 대회의 데이터들도 데이터타입에 맞지 않는 변수들은 추후에 타입변환이 중..