목록2024/06/30 (2)
tak's data blog
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/U7dnF/btsIjbjz0vm/DMzr8Ayp5SjAMQyubYMHD1/img.png)
https://taek98.tistory.com/108 네이버 뉴스댓글 어뷰징분석 (3)어뷰징 정의 및 분석지난 시간에 이어서 어뷰징 정의 및 분석 단계로 나아가보겠다. 어뷰저의 기준은 크게 다음과 같다. 1. 어뷰징 정의 작성한 댓글로 하여금 타인에게 영향을 끼치게 만들고(부정적이든 긍정적이taek98.tistory.com지난 프로젝트의 끝은 다음과 같았습니다.네이버 뉴스 어뷰징 유저는 1) 댓글이 10위권 내에 들었던 횟수가 많은 작성자 중2) 댓글 수 대비 top10 댓글 달성 비율이 비정상적인 사람으로 정의한 결과 정치, 사회, 경제 뉴스 분야에서 몇몇 유저를 정의해낼 수 있었습니다. 하지만 단순 수치에 근거한 결론이었습니다. 그래서 추가적인 머신러닝 모델링을 통해 어뷰징유저의 분포를 추정하고자..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/pkl7z/btsIhbevO5k/hIkLAqu8Rr4obyTzSrqL2k/img.png)
GMM 개념GMM은 데이터 포인트가 평균과 분산이 다른 여러 가우시안 분포의 혼합에서 생성된다고 가정합니다. 가우시안 분포를 사용하여 클러스터링 함으로써 Kmeans 모델을 확장시키고, 군집의 평균뿐만 아니라 공분산도 고려하며 타원체 모양을 모델링할 수 있습니다. 특히 이러한 특징으로 이상탐지 분야에서 많이 활용되고 있습니다. *학습내용에 대한 출처: https://www.youtube.com/watch?v=NNwkDi-2xVQ 위와 같은 방식은 GMM에서 모수 추정이라고 하는데, 모수 추정은 대표적으로 2가지를 추정합니다.개별 정규분포의 평균과 분산각 데이터가 어떤 정규분포에 해당되는지의 확률이러한 모수 추정을 위해 GMM은 EM알고리즘 방법을 사용합니다. 이러한 과정을 진행하기 전에 우리는 다음과..