tak's data blog

[BOAZ 프로젝트] 크롤링 데이터 프레임화 본문

BOAZ

[BOAZ 프로젝트] 크롤링 데이터 프레임화

hyuntaek 2021. 7. 12. 00:26
반응형
SMALL

boaz에서 진행하는 카페 추천 프로젝트가 거의 막바지에 다다랐습니다. 7월10일 중간 발표를 진행하였고, 7월말에 마지막으로 최종 컨퍼런스로 1년간의 boaz활동을 마무리 할 것 같네요 후련하면서도 섭섭합니다 ㅠㅠ

 

 

이번 시간에는 여태 해왔던 크롤링 데이터를 데이터 프레임화, 전처리, 토큰화 까지 전처리 위주의 역할을 맡게 되었습니다.

 

 

우선 저희는 총 550여개의 역 (1~9호선, 분당,신분당 등등) 22,239개의 카페를 기준으로 데이터를 수집하였습니다.

 

 

 

review를 ex) 혜화역 커피빈 1개의 지점당 달려있는 리뷰들을 각 user별로 json파일로 저장하여 수집하였습니다. 

 

kakao / google / naver 3 platform의 데이터를 크롤링 하였고, 아래는 google에 대해서만 데이터프레임 함수를 작성한 예시입니다.

빈 리스트를 각각 지점(ItemID) / review / user 3개를 생성하고 각 지점마다 user의 리뷰들을 append하는 방식으로 for문 2개로 간단하게 함수를 작성하였습니다. 데이터양이 많지 않아 for문 2개를 활용하여 작성하였지만 더 빠른 다른 방법도 추후에 찾아봐야 할 것 같습니다.

 

아래는 데이터프레임의 결과입니다.

 

각 3가지 platform별로 데이터프레임을 만들어 두었고, 다음 포스팅엔 전처리와 bert모델을 참고한 토큰화까지 진행한 과정을 보여드리도록 하겠습니다. 감사합니다!!

 

 

인턴과 프로젝트 등을 통해서 pandas나 데이터프레임 관련 처리는 많이 능숙해진 것 같아서 뿌듯합니다. 데이터를 예쁘게 가공하는 것이 중요한 부분이기 때문에 더 빠르고 능숙하게 하도록 연습하도록 하겠습니다. 

그리고 이렇게 만들어둔 데이터 프레임을 단순히 추천시스템 모델만 적용하는것이 아닌 따로 지점별 / 역별 카페들의 리뷰나 rating등을 분석해서 시각화 해보는 토이프로젝트도 진행하도록 하겠습니다 ㅎㅎ

 

반응형
LIST