tak's data blog
[BOAZ 프로젝트] 크롤링 데이터 프레임화 본문
boaz에서 진행하는 카페 추천 프로젝트가 거의 막바지에 다다랐습니다. 7월10일 중간 발표를 진행하였고, 7월말에 마지막으로 최종 컨퍼런스로 1년간의 boaz활동을 마무리 할 것 같네요 후련하면서도 섭섭합니다 ㅠㅠ
이번 시간에는 여태 해왔던 크롤링 데이터를 데이터 프레임화, 전처리, 토큰화 까지 전처리 위주의 역할을 맡게 되었습니다.
우선 저희는 총 550여개의 역 (1~9호선, 분당,신분당 등등) 22,239개의 카페를 기준으로 데이터를 수집하였습니다.
review를 ex) 혜화역 커피빈 1개의 지점당 달려있는 리뷰들을 각 user별로 json파일로 저장하여 수집하였습니다.
kakao / google / naver 3 platform의 데이터를 크롤링 하였고, 아래는 google에 대해서만 데이터프레임 함수를 작성한 예시입니다.
빈 리스트를 각각 지점(ItemID) / review / user 3개를 생성하고 각 지점마다 user의 리뷰들을 append하는 방식으로 for문 2개로 간단하게 함수를 작성하였습니다. 데이터양이 많지 않아 for문 2개를 활용하여 작성하였지만 더 빠른 다른 방법도 추후에 찾아봐야 할 것 같습니다.
아래는 데이터프레임의 결과입니다.
각 3가지 platform별로 데이터프레임을 만들어 두었고, 다음 포스팅엔 전처리와 bert모델을 참고한 토큰화까지 진행한 과정을 보여드리도록 하겠습니다. 감사합니다!!
인턴과 프로젝트 등을 통해서 pandas나 데이터프레임 관련 처리는 많이 능숙해진 것 같아서 뿌듯합니다. 데이터를 예쁘게 가공하는 것이 중요한 부분이기 때문에 더 빠르고 능숙하게 하도록 연습하도록 하겠습니다.
그리고 이렇게 만들어둔 데이터 프레임을 단순히 추천시스템 모델만 적용하는것이 아닌 따로 지점별 / 역별 카페들의 리뷰나 rating등을 분석해서 시각화 해보는 토이프로젝트도 진행하도록 하겠습니다 ㅎㅎ
'BOAZ' 카테고리의 다른 글
[BOAZ 프로젝트] 카페 추천시스템 (마지막) (1) | 2021.08.21 |
---|---|
[BOAZ 프로젝트] json 파일 이미지 다운 (1) | 2021.07.13 |
[BOAZ 프로젝트] 카카오맵 카페 크롤링 2(수정) (3) | 2021.04.04 |
[BOAZ 프로젝트] 카카오맵 카페 크롤링1 (0) | 2021.03.09 |
[BOAZ 프로젝트] google maps api로 경도/위도 가져오기 (0) | 2021.02.22 |