목록전체 글 (71)
tak's data blog

데이터를 분석하는 것 뿐만 아니라 데이터를 한눈에 보기 좋게 시각화해서 전달하는 것도 중요합니다. 데이터 시각화 tool인 tableau공부를 BOAZ의 weviz채널을 통해 공부해보며 기록을 남겨보도록 하겠습니다. 좋은 영상 제공해주시는 weviz팀에 감사하다는 말씀을 먼저 남기고 싶습니다!! 위비즈 공식 채널 : www.youtube.com/c/%EC%9C%84%EB%B9%84%EC%A6%88WeViz/videos 위비즈 WeViz 우리의 눈으로 바라본 세상을 시각화하다. WeViz 인스타그램 @we_viz www.youtube.com 코로나 근원지라고 볼 수 있는 우한을 시작으로 현재 코로나 확진자 수를 원의 크기에 비례하도록 설정한 대시보드입니다. 코로나 실시간 확진자 수를 볼 수 있는 다음 사이..

이번 시간에는 여태 공부해왔던 SQL문을 가지고 제가 직접 수집한 데이터를 가지고 간단히 활용해보는 시간을 가져보겠습니다!! 사용할 데이터는 피파온라인4 강화 데이터입니다. 아래주소에 들어가시면 이 데이터로 제가 진행했던 간단한 프로젝트도 볼 수 있습니다! 즐겨 봐주시면 감사하겠습니다ㅎㅎ fifa4 강화 확률 예측 : taek98.tistory.com/14 FIFA4 강화 성공 확률은??? (선수 강화 데이터 분석) 게임을 너무 좋아하는 저는 게임 데이터를 통한 데이터분석 방법이 없을까? 라는 생각으로 이 프로젝트를 시작하게 되었습니다. 그러던 중 fifa4 선수 강화시스템의 성공/실패 여부를 데이터로 taek98.tistory.com PostgreSQL을 기준으로 작성 되었으며 DBeaver를 통해 진..

www.kaggle.com/c/home-credit-default-risk Home Credit Default Risk Can you predict how capable each applicant is of repaying a loan? www.kaggle.com 이번에 다룰 필사할 kaggle competition은 Home Credit Default Risk로 과거 대출 신청 데이터를 사용하여 신청자가 대출금을 상환할 수 있는지 여부를 예측하는 대회입니다. 참고 커널 : www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction Start Here: A Gentle Introduction Explore and run machine learning co..

머신러닝 리뷰의 모든 내용은 핸즈온 머신러닝을 기반으로합니다!! 지난 시간 분류(classification)에 이어서 오늘은 model training에 대해서 살펴보도록 하겠습니다. 가장 간단한 모델 중 하나인 linear regression부터 시작하겠습니다. 이 모델을 훈련시키는데는 두가지 방법이 있습니다. 1. 직접 계산가능한 공식을 사용하여 훈련 세트에 가장 잘 맞는 모델 파라미터를 구한다. 2. 경사 하강법(GD)라 불리는 반복적인 최적화 방식을 사용하여 파라미터를 조금씩 바꾸면서 비용함수를 최소화시킨다. 기본 개념 -> 가중치의 합과 bias로 이루어진 선형 모델(최적의 파라미터를 찾아 모델에 적합시켜 예측값을 구하자) 정규 방정식 - training set에 가장 잘맞는(비용함수를 최소화)..

문제 dvd렌탈 시스템의 관리자는 고객별 매출 순위를 알고 싶다. 신규 테이블을 생성해서 고객의 매출 순위를 관리하고 싶으며 신규 테이블의 이름은 customer_rank이고 테이블 구성은 customer_id, customer_rank로 정했다. ctas 기법을 이용하여 신규 테이블을 생성하면서 데이터를 입력해라. ctas(create table as select)란 서브쿼리를 이용한 테이블 생성을 말한다. 1. payment 테이블을 customer_id로 group by한 후 amount의 합계를 구한다. 2. 1번에 추출한 집합을 인라인뷰로 감싸 amount 합계 별 순위를 구한다. 3. ctas문을 이용하여 테이블 생성 및 데이터를 입력한다. 유의해야할 점 : row_number 의 활용성

이번 시간에는 분류에대해서 간단히 정리해보는 시간을 가지겠습니다. 분류의 종류로는 크게 두가지가 있습니다. 1. Binary classification(이진 분류) 두 가지 정답으로 이루어진 것들을 분류하는 것으로 0, 1과 같이 2진 법으로 분류 하는 방법입니다. 구분하고자 하는 결과 값이 2가지인 경우 ex) 어떤 사진이 개의 사진인지 / 고양이의 사진인지 구분하는 것 ex) 메일이 스팸메일인지 / 그냥 메일인지 구분하는 것 Binary classification에 사용되는 알고리즘이 logistic regressin이다. 2. Multi-label Classification (Multinomial Classification, soft max, 다중 분류) 이진 분류처럼 0과 1만이 아닌 x,y,z와..

스스로도 머신러닝에대해 공부하면서 자주 까먹고 헷갈리는 부분이 많아 BOAZ에서 머신러닝 스터디를 계기로 복습할겸 내용을 정리해보도록 하겠습니다. 1. 머신러닝의 기본 개념 - 데이터에서부터 학습할 수 있는 시스템을 만드는 것! - 자동화 - 사용 분야 : 복잡한 문제와 대량의 데이터에서 인사이트 도출, 많은 수동 조정과 규칙이 필요한 경우 (모델링을 통한 과정 간소화) - 데이터 마이닝 : 겉으로 보이지 않는 패턴을 발견하는 것 머신러닝의 종류 1) 학습하는 동안의 감독 형태나 정보량에 따른 분류 1. 지도 학습 : 정답을 알려주며 학습을 시키는 방법. 예를 들어 자동차 사진을 주고(input data) 이 사진을 자동차(label data)라고 지칭하는 학습법이다. 크게 회귀(regression)와 ..

저번주 santander에 이어서 이번주는 포르토 세구로에서 주최한 안전 운전자 예측 경진대회에대해 다루어 보겠습니다. 우선 '머신러닝 탐구생활' baseline을 기반으로 필사한점을 인지해주시기 바라겠습니다! 캐글 커널 주소 : www.kaggle.com/c/porto-seguro-safe-driver-prediction 대회의 평가 척도로는 [정규화 지니 계수]를 사용합니다. 간단하게 설명드리자면 불균형의 정도를 나타내는 통계학적 지수로, 지표는 경제 분야에서 소득별 부의 불균형 정도를 나타내는데 사용합니다. 지니 계수는 회색 gini index의 면적을 삼각형 전체의 면적으로 나눈 값을 의미합니다. 부의 불균형이 높을 수록 gini index영역은 더 커지고, 그에 따라 지니 계수 또한 높아질 것입..