tak's data blog

[BOAZ 프로젝트] 크롤링 리뷰 데이터 전처리 / 벡터화 본문

BOAZ

[BOAZ 프로젝트] 크롤링 리뷰 데이터 전처리 / 벡터화

hyuntaek 2021. 7. 12. 23:58
반응형
SMALL

지난 시간에 이어서 리뷰 데이터를 학습 시키기 위해서는 불필요한 특수기호나 한글 모음 자음 등

불용어를 제거하는 과정이 필요합니다. 그래서 이번 시간에는 그 과정을 보여드리고자 합니다.

 

아래와 같은 리뷰의 예시가 있습니다. ㅠㅠ나 ㅎㅎ 이모티콘등은 학습과정에서 불필요하므로 제거하고자 합니다.

 

아래와 같은 코드로 한글모음자음, 특수문자를 제거하는 과정을 가졌습니다.

 

그리고 저희는 ACCM 논문의 모델을 기반으로 추천시스템을 구현하기로 하였는데, 저희는 이미지와 리뷰 내용을 둘다 활용하기 때문에 텍스트와 이미지의 feature를 뽑는 pretrained model을 추가시켜주었습니다.

따라서 리뷰 부분에서는 bert를 추가하여 특정 리뷰가 들어온다면 특정 크기의 차원을 가진 벡터로 변환시켜주는 과정을 가졌습니다.

다음 dacon의 베이스라인 코드를 참고하였습니다.

https://dacon.io/codeshare/2044

 

Keras-Bert를 이용한 간단 구현(정확도 94%)

AI야 , 진짜 뉴스를 찾아줘! AI 경진대회

dacon.io

 

 

코드를 거의 그대로 활용하였기 때문에 추후에 모델관련 설명과 코드에 대한 부연설명을 추가로 정리해보도록 하겠습니다!

아래의 review들을 그 아래의 차원을 가진 벡터로 변환시킨 모습입니다.

 

여기까지가 전처리와 벡터화의 과정입니다. 모델링에 대한 부분이 아니라 전처리 위주로 진행하여서 다른 팀원분이 작성한 모델에 적용한 결과가 나온다면 같이 정리해서 올려보도록 하겠습니다. 여기까지 읽어주셔서 감사합니다 :)

 

 

이제 네이버 / 구글의 이미지는 수집을 완료했고, 카카오의 이미지만 수집하면 모든 데이터 수집이 완료가 됩니다. 기나긴 몇개월간의 프로젝트가 끝이 보이니 후련하면서도 아쉽네요... 인턴을 하면서 매일같이 하던 pandas 다루기와 회사를 들어가기전 공부했던 알고리즘들이 코드 수행능력 향상에 많은 도움이 된 것 같아 참 다행입니다!

반응형
LIST