목록전체 글 (71)
tak's data blog

계속 프로젝트를 진행 중에 있습니다. 현재는 네이버 / 카카오 / 구글 별로 크롤링 코드를 각자 짜오는 과정을 가지고 있는데 카카오 맵의 리뷰 페이지가 넘어가는 규칙이 특이해 쉽지 않네요... BeautifulSoup과 Selenium을 통한 크롤링을 위해서 xpath경로가 필요합니다. 하지만 카카오맵은 페이지가 넘어 갈 때의 경로가 1. 페이지가 2개이하면 em -> a 2. 페이지가 4개이하면 em -> a[1] -> a[2] -> a[3] 3. 페이지가 5개면 a[1] -> a[2] -> a[3] -> a[4] -> em 4. 페이지가 2개이상이면 다음버튼 까지 em -> a[1] -> a[2] -> a[3] -> a[4] -> a[5](다음) 5. 다음으로 넘어가면 이전이 a[1] -> em(6페..

전 게시글들은 kaggle 필사를 기준으로 진행하였습니다. 이번에는 직접 데이터를 살펴보고 분석해보는 과정으로 진행해보록 하겠습니다!! 참고 블로그 : ebbnflow.tistory.com/141?category=850456 [캐글] 중고차 가격 예측 모델2_Gradient Boost, Random Forest ● Gradient Boost Gradient Boosting Algorithm (GBM)은 회귀분석 또는 분류 분석을 수행할 수 있는 예측모형이며 예측모형의 앙상블 방법론 중 부스팅 계열에 속하는 알고리즘입니다. Gradient Boosting.. ebbnflow.tistory.com 데이터는 kaggle 중고차 가격 예측 대회를 참고하였습니다. 필요한 라이브러리들을 import하고 train데..

스택(stack)은 쌓아 올린다는 뜻으로, 자료를 쌓아 올린 형태의 구조를 말한다. 스택(stack) - 맨 위 요소만 접근 가능 - 데이터를 push하면 top에 들어가고, pop하면 가장 최근에 푸시한 데이터가 나온다. - LIFO (Last In First Out) 구조이다. (후입선출) 스택 장점 - 데이터의 삽입과 삭제가 빠름. 단점 - 맨 위의 원소만 접근 가능 큐(queue)는 무엇을 기다리는 사람의 사전적 정의를 가지고 있으며, 먼저 들어간 데이터가 먼저 나가는 것에서 붙여졌다. 큐 - 데이터가 push되는 곳을 front, pop되는 곳을 back이라 함. - FIFO (First-In-First-Out) 구조이다. (선입선출) 큐 다음과 같다. [프로그래머스] 다리를 지나는 트럭 문제 ..

앞으로를 위해서 4학년이 되면서 it기업을 목표를 잡고 코딩테스트를 공부하기로 마음먹게 되었습니다. 프로그래머스의 고득점 kit을 처음으로 정리를 시작하면서 코딩 테스트를 리뷰하는 과정을 가지도록 하겠습니다. 참고 블로그 : davinci-ai.tistory.com/19 파이썬으로 구현하는 자료구조 요약 정리 - 해쉬 테이블(Hash Table) Writer: Harim Kang 해당 내용은 코딩 테스트 및 기술 면접을 대비하기 위해서 자료구조를 공부하며 정리한 내용입니다. 각각 자료구조의 종류와 특성, 장단점, 파이썬을 이용한 간단한 구현 코드까 davinci-ai.tistory.com 그 첫번째는 해시 테이블입니다. 우선 해시 구조란? - key와 value로 이루어진 데이터 구조를 말합니다. key..

벌써 5주차인데요 이번엔 Decision Tree(의사결정나무)에 대해서 다뤄보도록 하겠습니다! 기본 개념 및 구조 - Decision Tree(의사결정나무)는 데이터의 feature에서 패턴을 찾는 머신러닝 모델 - supervised learning model (지도학습 모델 중 하나) - 분류, 회귀, 다중출력 작업이 가능하다. - 매우 복잡한 데이터 셋도 학습 가능 - randomforest의 기본 구성 요소 (특정 feature를 바탕으로 작은 그룹들로 나누는 과정을 반복하여 더 이상 나눌 수 없는 지점(리프 노드)에 도달 시킨다.) 예측 단계에서 unlabeled 데이터를 의사결정나무에 통과시켜 리프노드에 도달하면, 해당 노드에서 제일 많이 포함된 label이 unlabeled 데이터의 lab..

문제 dvd렌탈 시스템의 관리자는 매달 매출 순위 1위를 한 고객에게 특별한 선물을 주고자 한다. 이러한 업무를 달성하기 위해 customer_rank_yyyymm이라는 테이블을 ctas기법으로 생성하는 sql문을 작성하라. (단 선물 제공 기준을 정하기 위해 sum_amount도 저장하여라.) 1. payment 테이블을 customer_id, yyyymm 기준으로 group by 후 amount의 합계를 구합니다. sum을 사용해서 새로운 sum_amount로 지정해주고 to_char를 이용해서 날짜 데이터를 년월로 끊어줍니다. 2. 1번 결과를 인라인 뷰로 감싼 후 yyyymm을 기준으로 amount 합계 별 순위를 구합니다. from절에서 인라인 뷰로 1번을 감싼 후 테이블을 a로 지정합니다. 그..

지하철역을 기준으로 추천시스템을 하기 위해서 저희는 경도/위도 데이터를 가지고 지하철역과 식당과의 거리를 기준으로 라벨링을 진행하는 방향으로 가고자 합니다. 그러기 위해서는 기존에 다른 사람들이 정리해놓은 데이터를 사용하는 방법도 있지만, google maps api를 이용해 경도/위도 데이터를 가져오는 방법도 있습니다. 그 중 서울 열린데이터 광장의 데이터를 활용하고자 하는데 9호선, 경의중앙선, 분당선, 신분당선, 우이신설선의 주소가 누락되어 있어 이를 google maps api를 통해 가져오는 과정을 진행해보도록 하겠습니다. 참고 블로그 : jhleeeme.github.io/google-maps-api-uses/ Google Maps API를 활용한 주소데이터 스크래핑 | 내가 다시 보려고 만든 ..

BOAZ에서 한학기동안의 베이스 세션이 끝나고 이제 마지막 한학기 동안 진행할 ADV 프로젝트만 남았다. 관심있는 분야를 주제로 나중에 컨퍼런스에서 발표하는 과정을 가진다. 평소 텍스트마이닝과 추천시스템에 관심이 있었고, 아직 많이 부족하지만 한학기동안 공부하면서 관련 프로젝트를 진행하기로 하였다. 우리 조의 주제로는 서울 행정구역별로 거리에 따라 지하철역을 나눠서 카페를 추천해주고 직접 웹페이지(?)까지 구현하기로 하였다. 시작한지 한 달이 되어가는데 coursera 추천시스템 강의를 들으면서 이에 대한 개념을 공부하며 리뷰하는 식으로 진행하는 중이다. 또한 selenium을 통한 평점과 리뷰 데이터 크롤링을 위해 토이 코드를 짜는 과정을 진행중이다. 다른 사람들이 미리 구현해놓은 크롤링 코드를 보면서..