목록프로젝트 (17)
tak's data blog
지난 결론으로는 nextfield의 적응/비적응 여부와 이탈은 통계적으로 유의성이 없다는 결론을 내릴 수 있었습니다.https://taek98.tistory.com/76 피파온라인4 - 인과관계를 고려한 이탈 분석(PSM 매칭기법)전에 작성했었던 자료에 이어서 분석을 진행하도록 하겠습니다! https://taek98.tistory.com/66 피파온라인4 이탈, 진성유저 분석_이탈유저는 nextfield에 적응할까? 배경 선정 이탈 분석이라는 주제를 잡taek98.tistory.com 마지막 프로젝트를 진행하면서 그래서 이탈과 관련이 있거나 없으면 어떻게 액션을 제시할 수 있을까? 직접적인 액션으로 나아갈 수 있는 새로운 분석방법은 또 무엇이 있을까??고민을 하던 찰나에 인과추론에 대해 조금씩 공부해보..
https://taek98.tistory.com/108 네이버 뉴스댓글 어뷰징분석 (3)어뷰징 정의 및 분석지난 시간에 이어서 어뷰징 정의 및 분석 단계로 나아가보겠다. 어뷰저의 기준은 크게 다음과 같다. 1. 어뷰징 정의 작성한 댓글로 하여금 타인에게 영향을 끼치게 만들고(부정적이든 긍정적이taek98.tistory.com지난 프로젝트의 끝은 다음과 같았습니다.네이버 뉴스 어뷰징 유저는 1) 댓글이 10위권 내에 들었던 횟수가 많은 작성자 중2) 댓글 수 대비 top10 댓글 달성 비율이 비정상적인 사람으로 정의한 결과 정치, 사회, 경제 뉴스 분야에서 몇몇 유저를 정의해낼 수 있었습니다. 하지만 단순 수치에 근거한 결론이었습니다. 그래서 추가적인 머신러닝 모델링을 통해 어뷰징유저의 분포를 추정하고자..
지난 시간에 이어서 어뷰징 정의 및 분석 단계로 나아가보겠다. 어뷰저의 기준은 크게 다음과 같다. 1. 어뷰징 정의작성한 댓글로 하여금 타인에게 영향을 끼치게 만들고(부정적이든 긍정적이든) 그 댓글의 순위가 top 10내에 들어가야 함.(그만큼 남에게 많은 영향력을 끼친 댓글일 것) 일반유저와 달리 눈에 띄는 특징이 있을 것임위의 기준을 근거로 본석한 결과, 각 뉴스 타입별로 어뷰저라고 의심할 만한 유저 몇명을 정의할 수 있었다. 1) 정치user1 - 전체 작성 댓글 35개 중 top 10안에 들어간 댓글 29개 (82.86%)2) 사회user11 - 전체 작성 댓글 214개 중 top 10안에 들어간 댓글 184개 (85.98%)3) 경제user34 - 전체 작성 댓글 40개 중 top 10안에 ..
이번 시간에는 지난번 크롤링 했던 데이터를 기반으로 간단한 인사이트 도출을 실시하도록 하겠습니다. 어떤 사건으로 인해 댓글수가 많아졌는지 그리고 어떠한 사건이 있었을 때 어뷰징 유저들이 즐비하였는지 등의 순서로 나아가보도록 하겠습니다. 우선 수집된 데이터가 다양하지 않고 그리고 전체적인 흐름만 살펴보려고 하기 때문에 눈에 띌만한 인사이트는 도출하지 않았습니다. 분석에는 다음과 같은 내용들이 활용되었습니다. 기사: 기사 id, 기사 제목, 기사 입력 시각, 기사 내용 댓글: 댓글 작성 기사id, 작성자 id, 댓글 작성 시각, 댓글 내용, 공감수, 비공감수 전체 댓글 수 노트북 성능 상 2년간의 모든 데이터를 수집할 수 없었고 일부 데이터만 살펴보았을 때 2022년 2월을 기점으로 우하향하는 그래프를 확인..
주의 사항: 어뷰저라고 정의하는 방법이나 분석 방향 등은 순전히 작성자만의 생각이고 Naver는 전혀 상관없다고 말씀드리고 싶습니다. Naver는 편향성을 가지지 않는 중립적인 플랫폼입니다. 0. 문제 정의 문득 뉴스, 웹툰, 게임 등 여러 매체들의 댓글을 보면 심상치 않은 상황들이 오고갑니다. 서로 시비를 걸며 싸우거나 각자의 생각을 주입하며 선동하기도 하고 또는 광고성 댓글로 댓글창을 어지럽히곤 합니다. 저는 이러한 상황에서 데이터분석으로 어뷰저를 판별해볼 수 있지 않을까?라는 물음을 가지게 되었습니다. 여기서 제가 정의하는 어뷰저란 1) 남에게 생각을 주입하는 등의 영향력을 끼칠 수 있는 댓글 2) 특정 광고성 댓글 3) 특정한 패턴을 보이는 댓글 이렇게 일반 댓글과는 다른 형태를 가지는 댓글들 이..
https://taek98.tistory.com/83 배틀그라운드 어뷰징 정의 및 탐지(kaggle 데이터 활용)(1) 실제로 게임을하면서 어뷰징으로 이탈했던 경험과 이를 해결하기 위해 내가 할 수 있는 일은 무엇일까?? 고민하며 게임 어뷰징 탐지라는 분야에 관심을 가지게 되었다. 게임데이터로 어뷰징탐 taek98.tistory.com 지난번엔 어뷰징유저를 aim_point라는 지표를 통해 새롭게 정의하였고, 그로써 어뷰징 유저의 특징들은 무엇을 가지고 있을까? 라는 의문으로 분석하는 과정을 가졌습니다. 최근 Isolation Forest기법을 배우고 이를 지난번에 분석했던 데이터를 활용해 다른 인사이트를 도출해보고자 합니다. 지난 시간에는 'user_status'변수를 각각 'normal', 'abus..
지난 시간에는 아래와 같이 kaggle데이터를 활용해서 직접 어뷰징 유저를 정의하고 분석하는 과정을 가졌습니다. https://taek98.tistory.com/83 배틀그라운드 어뷰징 정의 및 탐지(kaggle 데이터 활용)(1) 실제로 게임을하면서 어뷰징으로 이탈했던 경험과 이를 해결하기 위해 내가 할 수 있는 일은 무엇일까?? 고민하며 게임 어뷰징 탐지라는 분야에 관심을 가지게 되었다. 게임데이터로 어뷰징탐 taek98.tistory.com 직접 정의한 어뷰징 유저들을 기반으로 이제는 모델링을 진행해보도록 하겠습니다. 우선 데이터의 특성상 불균형한 클래스를 가지고 있었습니다. (0은 일반유저이고 1은 어뷰징유저입니다.) 아래 내용 출처: https://www.youtube.com/watch?v=Vh..
실제로 게임을하면서 어뷰징으로 이탈했던 경험과 이를 해결하기 위해 내가 할 수 있는 일은 무엇일까?? 고민하며 게임 어뷰징 탐지라는 분야에 관심을 가지게 되었다. 게임데이터로 어뷰징탐지를 직접 해보면 어떨까?라는 의문을 시작으로 다음과 같은 분석을 진행하였다. 배틀그라운드 어뷰징 유저 탐지이다. 사실 아래 데이터는 kaggle 대회로 유저들의 순위를 예측하는 대회이다. https://www.kaggle.com/competitions/pubg-finish-placement-prediction/data PUBG Finish Placement Prediction (Kernels Only) | Kaggle www.kaggle.com 0. 문제인식 데이터를 보는 과정에서 다음 2가지에대한 의문이 생겼다. 1) w..