목록분류 전체보기 (82)
tak's data blog
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/AGkiH/btqX6gkLwe5/3KHMbf8kp6gRNmHYER57CK/img.png)
문제 dvd렌탈 시스템의 관리자는 매달 매출 순위 1위를 한 고객에게 특별한 선물을 주고자 한다. 이러한 업무를 달성하기 위해 customer_rank_yyyymm이라는 테이블을 ctas기법으로 생성하는 sql문을 작성하라. (단 선물 제공 기준을 정하기 위해 sum_amount도 저장하여라.) 1. payment 테이블을 customer_id, yyyymm 기준으로 group by 후 amount의 합계를 구합니다. sum을 사용해서 새로운 sum_amount로 지정해주고 to_char를 이용해서 날짜 데이터를 년월로 끊어줍니다. 2. 1번 결과를 인라인 뷰로 감싼 후 yyyymm을 기준으로 amount 합계 별 순위를 구합니다. from절에서 인라인 뷰로 1번을 감싼 후 테이블을 a로 지정합니다. 그..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/c1rDMG/btqX32UwK9A/ZdrDQQhfdPFtUmTvJ3cAV0/img.jpg)
지하철역을 기준으로 추천시스템을 하기 위해서 저희는 경도/위도 데이터를 가지고 지하철역과 식당과의 거리를 기준으로 라벨링을 진행하는 방향으로 가고자 합니다. 그러기 위해서는 기존에 다른 사람들이 정리해놓은 데이터를 사용하는 방법도 있지만, google maps api를 이용해 경도/위도 데이터를 가져오는 방법도 있습니다. 그 중 서울 열린데이터 광장의 데이터를 활용하고자 하는데 9호선, 경의중앙선, 분당선, 신분당선, 우이신설선의 주소가 누락되어 있어 이를 google maps api를 통해 가져오는 과정을 진행해보도록 하겠습니다. 참고 블로그 : jhleeeme.github.io/google-maps-api-uses/ Google Maps API를 활용한 주소데이터 스크래핑 | 내가 다시 보려고 만든 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bT8wxE/btqX1o4Ard0/AFt2GvnXT3cAvyE4pNNwxk/img.jpg)
BOAZ에서 한학기동안의 베이스 세션이 끝나고 이제 마지막 한학기 동안 진행할 ADV 프로젝트만 남았다. 관심있는 분야를 주제로 나중에 컨퍼런스에서 발표하는 과정을 가진다. 평소 텍스트마이닝과 추천시스템에 관심이 있었고, 아직 많이 부족하지만 한학기동안 공부하면서 관련 프로젝트를 진행하기로 하였다. 우리 조의 주제로는 서울 행정구역별로 거리에 따라 지하철역을 나눠서 카페를 추천해주고 직접 웹페이지(?)까지 구현하기로 하였다. 시작한지 한 달이 되어가는데 coursera 추천시스템 강의를 들으면서 이에 대한 개념을 공부하며 리뷰하는 식으로 진행하는 중이다. 또한 selenium을 통한 평점과 리뷰 데이터 크롤링을 위해 토이 코드를 짜는 과정을 진행중이다. 다른 사람들이 미리 구현해놓은 크롤링 코드를 보면서..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/OTpdP/btqXZHh3EDH/dGj8kfOuElFReS5NC0t1JK/img.png)
데이터를 분석하는 것 뿐만 아니라 데이터를 한눈에 보기 좋게 시각화해서 전달하는 것도 중요합니다. 데이터 시각화 tool인 tableau공부를 BOAZ의 weviz채널을 통해 공부해보며 기록을 남겨보도록 하겠습니다. 좋은 영상 제공해주시는 weviz팀에 감사하다는 말씀을 먼저 남기고 싶습니다!! 위비즈 공식 채널 : www.youtube.com/c/%EC%9C%84%EB%B9%84%EC%A6%88WeViz/videos 위비즈 WeViz 우리의 눈으로 바라본 세상을 시각화하다. WeViz 인스타그램 @we_viz www.youtube.com 코로나 근원지라고 볼 수 있는 우한을 시작으로 현재 코로나 확진자 수를 원의 크기에 비례하도록 설정한 대시보드입니다. 코로나 실시간 확진자 수를 볼 수 있는 다음 사이..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/y2fPI/btqXwcWMgI4/OrIIUpcw30bKM1KKBb2Cck/img.png)
이번 시간에는 여태 공부해왔던 SQL문을 가지고 제가 직접 수집한 데이터를 가지고 간단히 활용해보는 시간을 가져보겠습니다!! 사용할 데이터는 피파온라인4 강화 데이터입니다. 아래주소에 들어가시면 이 데이터로 제가 진행했던 간단한 프로젝트도 볼 수 있습니다! 즐겨 봐주시면 감사하겠습니다ㅎㅎ fifa4 강화 확률 예측 : taek98.tistory.com/14 FIFA4 강화 성공 확률은??? (선수 강화 데이터 분석) 게임을 너무 좋아하는 저는 게임 데이터를 통한 데이터분석 방법이 없을까? 라는 생각으로 이 프로젝트를 시작하게 되었습니다. 그러던 중 fifa4 선수 강화시스템의 성공/실패 여부를 데이터로 taek98.tistory.com PostgreSQL을 기준으로 작성 되었으며 DBeaver를 통해 진..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dTWxLI/btqXb20Nu00/P3kIAxx5NJPPsM84CmNea0/img.png)
www.kaggle.com/c/home-credit-default-risk Home Credit Default Risk Can you predict how capable each applicant is of repaying a loan? www.kaggle.com 이번에 다룰 필사할 kaggle competition은 Home Credit Default Risk로 과거 대출 신청 데이터를 사용하여 신청자가 대출금을 상환할 수 있는지 여부를 예측하는 대회입니다. 참고 커널 : www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction Start Here: A Gentle Introduction Explore and run machine learning co..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dvDQhE/btqWKjb2hcC/qrciHrGvkkJEAB9KTq8Cpk/img.png)
머신러닝 리뷰의 모든 내용은 핸즈온 머신러닝을 기반으로합니다!! 지난 시간 분류(classification)에 이어서 오늘은 model training에 대해서 살펴보도록 하겠습니다. 가장 간단한 모델 중 하나인 linear regression부터 시작하겠습니다. 이 모델을 훈련시키는데는 두가지 방법이 있습니다. 1. 직접 계산가능한 공식을 사용하여 훈련 세트에 가장 잘 맞는 모델 파라미터를 구한다. 2. 경사 하강법(GD)라 불리는 반복적인 최적화 방식을 사용하여 파라미터를 조금씩 바꾸면서 비용함수를 최소화시킨다. 기본 개념 -> 가중치의 합과 bias로 이루어진 선형 모델(최적의 파라미터를 찾아 모델에 적합시켜 예측값을 구하자) 정규 방정식 - training set에 가장 잘맞는(비용함수를 최소화)..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cfkGCV/btqV36kWYMz/uWaWXowPE0ZTfWqqEQOSH1/img.png)
문제 dvd렌탈 시스템의 관리자는 고객별 매출 순위를 알고 싶다. 신규 테이블을 생성해서 고객의 매출 순위를 관리하고 싶으며 신규 테이블의 이름은 customer_rank이고 테이블 구성은 customer_id, customer_rank로 정했다. ctas 기법을 이용하여 신규 테이블을 생성하면서 데이터를 입력해라. ctas(create table as select)란 서브쿼리를 이용한 테이블 생성을 말한다. 1. payment 테이블을 customer_id로 group by한 후 amount의 합계를 구한다. 2. 1번에 추출한 집합을 인라인뷰로 감싸 amount 합계 별 순위를 구한다. 3. ctas문을 이용하여 테이블 생성 및 데이터를 입력한다. 유의해야할 점 : row_number 의 활용성