목록BOAZ (8)
tak's data blog
안녕하세요, 지난 마지막 프로젝트 포스팅에 이어서 후기를 적어보려고 다시 돌아왔습니다 ㅎㅎ 지난 BOAZ 15기 분석활동에 대한 회고와 후기를 또 안쓰고 지나칠 수 없겠더라구요 그럼 시작해보겠습니다!! - 지원 저는 한창 고민이 많았을 2학년 시기에 막연하게 빅데이터 분석이라는 꿈을 가지고 있었습니다. 그 때 대학동기가 이런 활동을 하고있다. 해보면 좋을것 같다. 라는 말을 듣고 관심을 가지기 시작하였습니다. boaz 이전에 처음 실무자 인터뷰 동아리를 하면서 현업자이시고 같은학교, BOAZ 선배님을 우연한 계기로 인터뷰를 하게 되었고 더욱 흥미가 생기게 되었습니다. 2년전에 했던 간단한 인터뷰 일부입니다! 추억이 새록새록하네요... 아무튼 그렇게 관심을 가지게 되었네요 ㅎㅎ 머신러닝이란 단어에 대해 처..
안녕하세요 이번에는 보아즈 마지막 포스팅인 컨퍼런스를 주제로 들고왔습니다. 제 14회 BOAZ 컨퍼런스 관련 내용은 아래의 슬라이드쉐어에서 확인하실수 있습니다!! https://www.slideshare.net/BOAZbigdata/14-boaz-249928314 제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스 카페 어디가? 팀은 서울시 내에 존재하는 많은 지하철 역을 중심으로 사용자에게 카페를 추천합니다. 14기 고해지 15기 이재철 김서영 서현택 정예림 정하원 www.slideshare.net BOAZ의 마지막 활동인 컨퍼런스 발표를 끝낸지 3주만에 포스팅을 올리게 되었습니다. 처음 맛집 추천 시스템으로 시작하였고 수집하는 과정에서 데이터의 양이 방..
ACCM모델을 기본으로 저희는 리뷰와 이미지를 중점적으로 활용하기로 했습니다. 그래서 이미지를 크롤링 할 때 따로 json파일로 저장을 해두었고, 이번에는 저장한 주소를 활용해 이미지를 다운 받는 과정을 보여드리도록 하겠습니다!! 아래와 같이 json파일을 읽어오고 직전 review와 같이 하나의 지점을 기준으로 여러개의 이미지가 저장된 dictionary형태로 저장되어 있는것을 확인할 수 있습니다. 아래와 같은 함수를 짜서 image가 저장된 json_data의 key1을 각각 하나의 지점 ex) 양재역 스타벅스 등으로 지정하고, json_data[key1].keys() -> 즉 각각 한 명의user를 의미합니다. 그리고 image를 알아보기 쉽게 ex) 양재역 스타벅스_user.jpg 형태로 저장합니..
boaz에서 진행하는 카페 추천 프로젝트가 거의 막바지에 다다랐습니다. 7월10일 중간 발표를 진행하였고, 7월말에 마지막으로 최종 컨퍼런스로 1년간의 boaz활동을 마무리 할 것 같네요 후련하면서도 섭섭합니다 ㅠㅠ 이번 시간에는 여태 해왔던 크롤링 데이터를 데이터 프레임화, 전처리, 토큰화 까지 전처리 위주의 역할을 맡게 되었습니다. 우선 저희는 총 550여개의 역 (1~9호선, 분당,신분당 등등) 22,239개의 카페를 기준으로 데이터를 수집하였습니다. review를 ex) 혜화역 커피빈 1개의 지점당 달려있는 리뷰들을 각 user별로 json파일로 저장하여 수집하였습니다. kakao / google / naver 3 platform의 데이터를 크롤링 하였고, 아래는 google에 대해서만 데이터프레..
프로젝트가 6월까지이므로 이제 슬슬 크롤링을 마무리할 단계가 다가왔습니다... 현재 진행상황으로는 user_id / 리뷰 / 평점 / 리뷰를 작성한 시간 / 카카오맵 url 이렇게 5개의 칼럼으로 데이터프레임의 형식을 맞추려고 하고 있습니다! 크롤링하면서 상당부분의 음식점이 없는 것으로 나와있고, 음식점이 아닌 병원이 나오는 경우도 있어서 추후에 보완할 필요가 있어보입니다. 총 13만개의 데이터를 작업해야 하는데 노트북을 하루종일 켜놔야 할 것 같네요 ㅠㅠ 저번에 작성한 코드가 아닌 data-page = "숫자" 안에 페이지별로 숫자가 달라지는 규칙을 가지고 새로운 코드를 작성하게 되었습니다. 카카오 크롤링 거의 마지막 코드 driver = webdriver.Chrome(r'C:/Users/user/De..
계속 프로젝트를 진행 중에 있습니다. 현재는 네이버 / 카카오 / 구글 별로 크롤링 코드를 각자 짜오는 과정을 가지고 있는데 카카오 맵의 리뷰 페이지가 넘어가는 규칙이 특이해 쉽지 않네요... BeautifulSoup과 Selenium을 통한 크롤링을 위해서 xpath경로가 필요합니다. 하지만 카카오맵은 페이지가 넘어 갈 때의 경로가 1. 페이지가 2개이하면 em -> a 2. 페이지가 4개이하면 em -> a[1] -> a[2] -> a[3] 3. 페이지가 5개면 a[1] -> a[2] -> a[3] -> a[4] -> em 4. 페이지가 2개이상이면 다음버튼 까지 em -> a[1] -> a[2] -> a[3] -> a[4] -> a[5](다음) 5. 다음으로 넘어가면 이전이 a[1] -> em(6페..
지하철역을 기준으로 추천시스템을 하기 위해서 저희는 경도/위도 데이터를 가지고 지하철역과 식당과의 거리를 기준으로 라벨링을 진행하는 방향으로 가고자 합니다. 그러기 위해서는 기존에 다른 사람들이 정리해놓은 데이터를 사용하는 방법도 있지만, google maps api를 이용해 경도/위도 데이터를 가져오는 방법도 있습니다. 그 중 서울 열린데이터 광장의 데이터를 활용하고자 하는데 9호선, 경의중앙선, 분당선, 신분당선, 우이신설선의 주소가 누락되어 있어 이를 google maps api를 통해 가져오는 과정을 진행해보도록 하겠습니다. 참고 블로그 : jhleeeme.github.io/google-maps-api-uses/ Google Maps API를 활용한 주소데이터 스크래핑 | 내가 다시 보려고 만든 ..
BOAZ에서 한학기동안의 베이스 세션이 끝나고 이제 마지막 한학기 동안 진행할 ADV 프로젝트만 남았다. 관심있는 분야를 주제로 나중에 컨퍼런스에서 발표하는 과정을 가진다. 평소 텍스트마이닝과 추천시스템에 관심이 있었고, 아직 많이 부족하지만 한학기동안 공부하면서 관련 프로젝트를 진행하기로 하였다. 우리 조의 주제로는 서울 행정구역별로 거리에 따라 지하철역을 나눠서 카페를 추천해주고 직접 웹페이지(?)까지 구현하기로 하였다. 시작한지 한 달이 되어가는데 coursera 추천시스템 강의를 들으면서 이에 대한 개념을 공부하며 리뷰하는 식으로 진행하는 중이다. 또한 selenium을 통한 평점과 리뷰 데이터 크롤링을 위해 토이 코드를 짜는 과정을 진행중이다. 다른 사람들이 미리 구현해놓은 크롤링 코드를 보면서..