[BOAZ 프로젝트] 크롤링 데이터 프레임화

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

tak's data blog

[BOAZ 프로젝트] 크롤링 데이터 프레임화 본문

BOAZ

[BOAZ 프로젝트] 크롤링 데이터 프레임화

hyuntaek 2021. 7. 12. 00:26

boaz에서 진행하는 카페 추천 프로젝트가 거의 막바지에 다다랐습니다. 7월10일 중간 발표를 진행하였고, 7월말에 마지막으로 최종 컨퍼런스로 1년간의 boaz활동을 마무리 할 것 같네요 후련하면서도 섭섭합니다 ㅠㅠ

이번 시간에는 여태 해왔던 크롤링 데이터를 데이터 프레임화, 전처리, 토큰화 까지 전처리 위주의 역할을 맡게 되었습니다.

우선 저희는 총 550여개의 역 (1~9호선, 분당,신분당 등등) 22,239개의 카페를 기준으로 데이터를 수집하였습니다.

review를 ex) 혜화역 커피빈 1개의 지점당 달려있는 리뷰들을 각 user별로 json파일로 저장하여 수집하였습니다.

kakao / google / naver 3 platform의 데이터를 크롤링 하였고, 아래는 google에 대해서만 데이터프레임 함수를 작성한 예시입니다.

빈 리스트를 각각 지점(ItemID) / review / user 3개를 생성하고 각 지점마다 user의 리뷰들을 append하는 방식으로 for문 2개로 간단하게 함수를 작성하였습니다. 데이터양이 많지 않아 for문 2개를 활용하여 작성하였지만 더 빠른 다른 방법도 추후에 찾아봐야 할 것 같습니다.

아래는 데이터프레임의 결과입니다.

각 3가지 platform별로 데이터프레임을 만들어 두었고, 다음 포스팅엔 전처리와 bert모델을 참고한 토큰화까지 진행한 과정을 보여드리도록 하겠습니다. 감사합니다!!

인턴과 프로젝트 등을 통해서 pandas나 데이터프레임 관련 처리는 많이 능숙해진 것 같아서 뿌듯합니다. 데이터를 예쁘게 가공하는 것이 중요한 부분이기 때문에 더 빠르고 능숙하게 하도록 연습하도록 하겠습니다.

그리고 이렇게 만들어둔 데이터 프레임을 단순히 추천시스템 모델만 적용하는것이 아닌 따로 지점별 / 역별 카페들의 리뷰나 rating등을 분석해서 시각화 해보는 토이프로젝트도 진행하도록 하겠습니다 ㅎㅎ

저작자표시 변경금지

'BOAZ' 카테고리의 다른 글

[BOAZ 프로젝트] 카페 추천시스템 (마지막) (1)	2021.08.21
[BOAZ 프로젝트] json 파일 이미지 다운 (1)	2021.07.13
[BOAZ 프로젝트] 카카오맵 카페 크롤링 2(수정) (3)	2021.04.04
[BOAZ 프로젝트] 카카오맵 카페 크롤링1 (0)	2021.03.09
[BOAZ 프로젝트] google maps api로 경도/위도 가져오기 (0)	2021.02.22

'BOAZ' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

tak's data blog

tak's data blog

[BOAZ 프로젝트] 크롤링 데이터 프레임화 본문

[BOAZ 프로젝트] 크롤링 데이터 프레임화

'BOAZ' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역