tak's data blog

네이버 뉴스댓글 어뷰징분석 (3)어뷰징 정의 및 분석 본문

프로젝트/네이버 뉴스댓글 어뷰징 분석

네이버 뉴스댓글 어뷰징분석 (3)어뷰징 정의 및 분석

hyuntaek 2024. 3. 9. 17:35

 

 

지난 시간에 이어서 어뷰징 정의 및 분석 단계로 나아가보겠다. 어뷰저의 기준은 크게 다음과 같다.

 

 

1.  어뷰징 정의

  • 작성한 댓글로 하여금 타인에게 영향을 끼치게 만들고(부정적이든 긍정적이든) 그 댓글의 순위가 top 10내에 들어가야 함.(그만큼 남에게 많은 영향력을 끼친 댓글일 것) 
  • 일반유저와 달리 눈에 띄는 특징이 있을 것임

위의 기준을 근거로 본석한 결과, 각 뉴스 타입별로 어뷰저라고 의심할 만한 유저 몇명을 정의할 수 있었다.

 

1) 정치

user1 - 전체 작성 댓글 35개 중 top 10안에 들어간 댓글 29개 (82.86%)

2) 사회

user11 - 전체 작성 댓글 214개 중 top 10안에 들어간 댓글 184개 (85.98%)

3) 경제

user34 - 전체 작성 댓글 40개 중 top 10안에 들어간 댓글 30개 (75%)

 

top 10 비율이 높다고 어뷰저라고는 정의할 수 없겠지만 우선 각 뉴스타입별 가장 높은 비율을 차지한 유저들로 정의하였다. 

그런데 정확히 어뷰저라고 정의가 되어 있지 않는 한 아무리 비율이 높아서 어뷰저라고 정의를 하고 제재를 가한다면 선량한 유저가 피해를 볼 수 있을 것이다. 그리고 이러한 분석 결론을 기반으로 어뷰저일 것이다. 라고 단정지어 다른 분들을 설득하기에는 어려움이 있을 것이다. 

 

만약 현업에 종사하는 사람이었다면 서버팀이나 혹은 관련 개발팀에 서버에 부하가 일어났다던가 실제로 이 유저가 어뷰저라고 확신을 할만큼 문제를 일으켰는지 협업을 통해 추가 확인해 볼 수 있을 것이다.

 

 

2. 어뷰저 기준

가령 게임에서의 어뷰저는 동일한 스킬을 반복하며 재화 수급을 진행하려는 목적을 가질 수 있을 것이다. 그렇다면 뉴스 어뷰저는 어떤 목적을 가지고 있을까?

 

목적

남들에게 자신의 생각을 주입(?)시켜 그들의 행동변화를 일으킨다. 즉, 이를 통한 댓글 순위가 높을 것이다.(top 10)

 

만약 정치관련 뉴스 기사에서 이러한 댓글로 인해 어느 한쪽으로 세력이 몰리거나 자유롭게 의견을 표출하지 못하는 상황이 발생한다면 큰 문제가 될 것이다. 그리고 요즘 유튜브 영상을 보면 가짜 기사들이 팽배하곤 한다. 예를 들어 손흥민, 이강인 선수 관련 영상이라던지(AI를 통한 조작) 많은 가짜 뉴스가 사람들에게 잘못된 정보를 제공하고 이게 진짜처럼 여겨지곤 한다. 그래서 어뷰저를 정의하고 제재를 가하거나 top 10댓글의 순위 선정이 공정한가에 대한 의문을 통해 해결법을 제시할 수 있을 것이다.

 

최종 기준

어뷰저의 목적은 남들에게 생각을 주입(?)시키는 것으로, 그 사람이 작성한 대다수의 댓글이 top 10에 들어가야할 것이다. 

 

 

3. 활용 데이터

  • 2022.01.01~2024.01.01의 중복을 제거한 리뷰 데이터 

 

 

4. 분석

사람들에게 생각을 주입(?)시켜, 사회에 파장을 일으킬 수 있는 정치 분야에 대한 top 10 횟수를 먼저 살펴보기로 한다.

아래는 각 유저별로 top 10내에 들었던 횟수를 집계하고 그에 따른 분포를 나타낸 결과이다.

 

대부분의 유저들이 1번정도의 댓글이 top 10 내에 들어간다. 그러나 최대값이 29번인 유저도 존재하는 것을 확인할 수 있었다.

 

 

 

추가로 뉴스타입별로 그래프를 그려본 결과 모두 같은 결과로 왼쪽에 치우친 분포를 보였고 그 중, 특이하고 사회의 분야에서 최대 184번의 top 10 성공 횟수를 보인 유저가 존재하였다. 사회 관련 어떤 뉴스에서 사람들의 공감을 이만큼 일으켰을까? 뒤에서 추가 분석 내용을 작성할 예정이다.

 

여기서 내린 간단한 생각과 결론은 다음과 같다. 모든 뉴스 타입, 분야에서 top 10에 댓글을 어느정도 달성한 유저들은 존재한다. 즉, top 10에 많이 달성했다고 해서 어뷰저라고 속단할 수 없다는 것이다. 가령 위의 예시에서 사회 뉴스의 경우에는 사람들의 공감, 마음을 이끌어 낸 감동적인(?) 댓글로 공감수를 많이 이끌어내 top 10에 들었을 수 있다. 

 

즉, top 10 댓글에 달성하는 방법, 공감을 많이 받는 방법을 알고 있는 유저일 것이다. 예를 들어 페이스북, 유튜브, 인스타그램에 재밌는 댓글, 드립을 달아 사람들의 공감을 많이 얻는 것처럼...!

 

그러나 그렇게 달성 방법을 안다고해서 모든 댓글이 다 top 10안에 들기는 쉽지 않을 것이다. 여러가지 제약 조건이 존재한다. 그래서 각 뉴스타입별로 댓글을 많이 작성한 top 10 유저를 선정하고 > 거기서 또 top 10댓글 선정 비율을 계산해 볼 것이다. 

 

  • 뉴스타입별로 댓글 수 top10 유저간에 top10 댓글 달성 비율(성공률)이 존재할 것이고 이는 정규분포를 따른다는 가설을 바탕으로 (top10댓글 달성 수/전체 댓글 수)의 비율을 계산해보았다.

 

 

정치 top 10 유저

userIdNo # top10 comment total_comment_cnt top10_ratio
user1 29 35 82.86%
user2 29 171 16.96%
user3 25 131 19.08%
user4 23 55 41.82%
user5 21 208 10.10%
user6 21 61 34.43%
user7 20 27 74.07%
user8 10 27 37.5%
user9 10 45 22.22%
user10 7 25 28%

 

 

사회 top 10 유저

userIdNo # top10 comment total_comment_cnt top10_ratio
user11 184 214 85.98%
user12 147 183 80.33%
user13 92 208 44.23%
user14 88 194 45.36%
user15 86 171 50.29%
user16 80 95 84.21%
user17 78 140 55.71%
user18 78 208 37.5%
user19 70 82 85.37%
user20 66 81 81.48%

 

 

세계 top 10 유저

userIdNo # top10 comment total_comment_cnt top10_ratio
user21 44 107 41.12%
user22 32 194 16.49%
user23 25 82 30.49%
user24 18 86 20.93%
user25 17 87 19.54%
user26 17 66 25.76%
user27 15 80 18.75%
user28 15 82 18.29%
user29 15 31 48.39%
user30 15 87 17.24%

 

 

경제 top 10 유저

userIdNo # top10 comment total_comment_cnt top10_ratio
user31 42 57 73.68%
user32 39 61 63.93%
user33 32 94 34.04%
user34 30 40 75%
user35 29 208 13.94%
user36 28 40 70%
user37 26 208 12.5%
user38 25 85 29.41%
user39 25 41 60.98%
user40 24 171 14.04%

 

 

IT top 10 유저

userIdNo # top10 comment total_comment_cnt top10_ratio
user41 36 194 18.56%
user42 21 79 26.58%
user43 20 208 9.62%
user44 16 59 27.12%
user45 15 94 15.96%
user46 15 171 8.77%
user47 14 140 10%
user48 14 131 10.69%
user49 13 20 65%
user50 13 53 24.53%

 

각 뉴스타입별로 top 10 댓글 성공률을 살펴본 결과 확실히 정치 뉴스에서 80%이상의 유저가 존재하였다. 그리고 특이하게는 사회 유저들도 대부분 높은 성공률을 보였다. 세계, it에서는 거의 낮은 성공률을 보였고, 경제 부분에서 70%대의 성공률을 보였다.

 

여기서 눈여겨봐야할 점은 정치 이외의 사회, 경제에서도 높은 성공률의 유저가 존재한다는 것이다. 하나의 추측으로는 경제 분야에서는 정치권과 관련된 정책(부동산 등)등이 사람들의 공감을 사지 않았을까? 라는 생각을 하게 되었다.

 

 

 

나아가서 top 10 유저의 top 10 댓글 성공률을 확률 변수 X라고 했을 때의 히스토그램과 모든 유저를 토대로 가우시안 분포를 추정한 결과이다. (점선) (평균: 27, 표준편차: 24)

추정한 분포에 따르면 60% 이상은 거의 존재하지 않는데, (정치, 사회, 경제) 분야에서 70%이상 대의 유저들이 다수 존재함을 확인할 수 있었다. (user1, user11, user34) = (82.86%, 85.98%, 75%)

 

그래서 이렇게 성공비율이 높은 어뷰징 의심 유저들을 기반으로 그들이 과연 어떤 기사에 어떤 댓글로써 사람들의 공감을 불러일으켰는가 추가 조사를 해보았다.

 

 

  • 2022.01.01 ~ 2024.01.01 눈여겨볼 사건들
    • 오스템 임플란트 1880억 횡령 사건 (2021.12.31)
    • 대선 (2022.03.09)
    • 정명석 (2023.)
    • 집값, 부동산 관련 문제(2022.)
    • 이은해 사건 (2022.03.30) 등등

 

정치 user1 (82.86%)

회색이 전체 정치관련 기사에 따른 댓글 수 이고, 자주색이 해당 user1의 댓글 작성 추세다. 

user1은 주로 대선전에 댓글활동을 하다가, 23년 3월 이후부터 윤석열 대통령에 관한 기사에 정치관련 댓글을 자주 작성하였다.

 

 

 

사회 user11 (85.98%)

사회 기사에서의 user11의 경우는 대부분 사회적으로 일어난 사건에 대해 안타까움과 공감을 토로하는 댓글들로 유저들의 공감을 일으켰음을 확인할 수 있었다.

 

 

 

경제 user34 (75%)

한가지 특이한 점은 경제라고 분류된 기사에 대해(부동산, 집값 관련) 단순히 가격 상승 등에 대한 비판, 한탄이 아니라 정치권과 연결지어 비난하는 모습을 확인할 수 있었다. 즉, 이러한 기사에서도 유저들의 공감을 불러일으켜 어뷰저로 의심될 만하다고 판단할 수 있을 것이다.

 

 

 

5. 결론

어뷰저를 댓글을 통해 타인의 생각에 영향을 주고 이상패턴을 보이는 사용자로 정의하였고, 이 기준에 따른 어뷰저 의심 유저를 찾고자 하였다.

  • 공감수 기준, 댓글이 10위권 내에 들었던 횟수가 많았던 작성자 중
  • (top 10 댓글 수 / 총 작성 댓글 수)의 비율이 상당히 높았던 유저

결과적으로 user1, user11, user34를 위의 기준으로 정의해낼 수 있었다. 하지만, 추가적으로 판단하기에 user11의 경우에는 사회 뉴스에 따른 댓글로 공감을 많이 불러일으켰었다. 이는 사람들의 생각에 영향을 주기보다는 마음을 움직였다고 판단하고 어뷰저라고는 판단할 수 없다는게 의견이다. 그러나 user1의 경우에는 정치 뉴스에서 사람들의 생각을 움직이도록 했고, user34의 경우에는 특이하게 경제 뉴스이지만 댓글은 정치권 댓글로 도배하여 생각을 움직이게 했다.

 

그렇기 때문에 user1, user34를 의심유저로 정의할 수 있었다. 추후 이 유저들을 직접적인 서버팀 등과 협의 후 실제 어뷰저인가?에 대해 조사해보는 방향을 고려할 수 있을 것이다.

 

몇년전에 관련 분석을 작성해주셨고, 아래의 블로그를 통해 비슷한 과정으로 분석을 진행해보았다.

https://www.thespacemoon.com/2019/08/03/naver-news-comments-analysis/2

네이버 뉴스 댓글 순위를 단순 공감수로 매겼을 때에는 이러한 어뷰저들로 인해 영향을 받는 사람들이 많았을 것이다. 하지만 지금은 공감비율 순으로 댓글 순위를 또 볼 수 있도록 설정되어졌다. 이를 통해 어뷰저들의 영향이 지대하게 줄었을 것이라고 추측했다.

 

하지만 여전히 단순 공감순으로 댓글 순위를 판별하는게 앞단에 나와있었다. 또한 위의 블로그의 분석 결과로 사회, 경제분야의 뉴스에서는 어뷰징 의심유저가 없었다는 결론이 있었지만, 시대가 변함에 따라 경제와 같은 분야에서도 정치권과 연결짓는 댓글로 어뷰징 의심유저가 보인다는 결론을 도출해낼 수 있었다.

 

결국 어뷰저는 어딘가에 존재하고 이들을 온전하게 막아낼 수는 없을 것이다. 그렇기 때문에 이들의 영향을 최소화 시킬 수 있는 방법으로 뉴스 종류별로도 하나의 댓글 정렬 기준을 마련하거나 랭킹 시스템에 변화를 주어 타인의 생각을 지배하는 악영향을 완화 시킬 수 있을 것이다.

 

또한 해당 블로그에서는 Gaussian Mixture Model Fitting(GMM)모델을 통해 분포를 2개로 나누어 보며 실제 어뷰저가 가지고 있는 분포 특징에 대해 알아볼 수 있었다. 그래서 다음 방향은 GMM 모델을 통해 실제 분포를 나눠보는 과정을 진행해도 좋을 것 같다라는 생각을 해보았다. "모든 작성자는 어뷰저가 아니다."라는 가정을 기반으로 특정 패턴이 등장할 확률을 계산해서 어뷰저였을 가능성을 간접적으로 추측하는 방식을 활용할 수 있을 것이다.

 

 

참고 블로그: https://www.thespacemoon.com/2019/08/03/naver-news-comments-analysis/2

 

6. 배운 점/ 아쉬운 점

배운 점

- 어뷰저 의심유저들을 정의해볼 수 있었고, 위험성에 대해 알게 됨.

 

아쉬운 점

- 실제 어뷰징 라벨이 있었다면, 해당 분석을 더 효과적으로 설득할 수 있었을 것

- 목적은 어뷰저의 영향을 줄여야한다. 이지만 어뷰저 의심유저는 누구다, 그들의 영향력이 지대하다. 에서 끝나서 실제 댓글 정렬 방법을 새롭게 고안해 이에 따른 어뷰징 영향도 전후분석을 진행하여 효과가 있었는지 판단해본다면 분석의 목적이 이행될 수 있지 않았을까 함.