목록전체 글 (79)
tak's data blog
1) 읽게된 계기양승화님의 그로스 해킹 이곳저곳에서 많이 들어본 도서였다. 지표에 대한 분석 및 정의, 퍼널분석, AB테스트 등등 여러 내용이 담겨져 있는 책이다. 지난 과거 ZEPETO 데이터분석을 진행하면서 어떤 지표를 봐야하고 어떤 분석을 해야하고 혼자서 막막함이 많이 남아있었다. 그래서 그 때의 후회를 다시 반복하지 않기 위해 이 책을 읽어보면서 개념 정리와 그에 따른 활용도에 대해 숙지해두고 추후에 적용해보고 싶은 마음에 읽게 되었다. 2) 내용 요약전체적인 내용에 대한 요약을 할 수 없지만, 기억에 남길 기본적인 개념위주로 정리해보기로 한다. 그로스 해킹이란?한번에 좋은 제품을 위해 노력하는 것이 아니라 지속적인 개선과 업데이트로 발전. 출시 후 서비스에 대한 사용자의 평..
이번에는 SQL 복습을 위해 리트코드 SQL 50제에서 문제를 풀어보았다. 해커랭크, 리트코드, 프로그래머스에 있는 대부분의 SQL문제는 풀어보았는데도 예상치 못한(풀어보지 못한) 문제가 나와서 당황했던 기억이 있다. 그래서 직접 풀이한 코드와 다른 사람들이 작성한 코드를 보며 복습해보기로 했다. 추후에는 데이터분석을 위한 SQL 레시피 책을 통해 공부할 예정이다. 1934. Confirmation Rate # 내풀이 WITH total AS ( SELECT user_id, SUM(CASE WHEN action = 'timeout' THEN 0 ELSE 1 end) AS confirmation, COUNT(*) AS confirmation_cnt FROM confirmations GROUP BY 1) S..
지난 시간에 이어서 어뷰징 정의 및 분석 단계로 나아가보겠다. 어뷰저의 기준은 크게 다음과 같다. 1. 어뷰징 정의 작성한 댓글로 하여금 타인에게 영향을 끼치게 만들고(부정적이든 긍정적이든) 그 댓글의 순위가 top 10내에 들어가야 함.(그만큼 남에게 많은 영향력을 끼친 댓글일 것) 일반유저와 달리 눈에 띄는 특징이 있을 것임 위의 기준을 근거로 본석한 결과, 각 뉴스 타입별로 어뷰저라고 의심할 만한 유저 몇명을 정의할 수 있었다. 1) 정치 user1 - 전체 작성 댓글 35개 중 top 10안에 들어간 댓글 29개 (82.86%) 2) 사회 user11 - 전체 작성 댓글 214개 중 top 10안에 들어간 댓글 184개 (85.98%) 3) 경제 user34 - 전체 작성 댓글 40개 중 top ..
이번 시간에는 지난번 크롤링 했던 데이터를 기반으로 간단한 인사이트 도출을 실시하도록 하겠습니다. 어떤 사건으로 인해 댓글수가 많아졌는지 그리고 어떠한 사건이 있었을 때 어뷰징 유저들이 즐비하였는지 등의 순서로 나아가보도록 하겠습니다. 우선 수집된 데이터가 다양하지 않고 그리고 전체적인 흐름만 살펴보려고 하기 때문에 눈에 띌만한 인사이트는 도출하지 않았습니다. 분석에는 다음과 같은 내용들이 활용되었습니다. 기사: 기사 id, 기사 제목, 기사 입력 시각, 기사 내용 댓글: 댓글 작성 기사id, 작성자 id, 댓글 작성 시각, 댓글 내용, 공감수, 비공감수 전체 댓글 수 노트북 성능 상 2년간의 모든 데이터를 수집할 수 없었고 일부 데이터만 살펴보았을 때 2022년 2월을 기점으로 우하향하는 그래프를 확인..
주의 사항: 어뷰저라고 정의하는 방법이나 분석 방향 등은 순전히 작성자만의 생각이고 Naver는 전혀 상관없다고 말씀드리고 싶습니다. Naver는 편향성을 가지지 않는 중립적인 플랫폼입니다. 0. 문제 정의 문득 뉴스, 웹툰, 게임 등 여러 매체들의 댓글을 보면 심상치 않은 상황들이 오고갑니다. 서로 시비를 걸며 싸우거나 각자의 생각을 주입하며 선동하기도 하고 또는 광고성 댓글로 댓글창을 어지럽히곤 합니다. 저는 이러한 상황에서 데이터분석으로 어뷰저를 판별해볼 수 있지 않을까?라는 물음을 가지게 되었습니다. 여기서 제가 정의하는 어뷰저란 1) 남에게 생각을 주입하는 등의 영향력을 끼칠 수 있는 댓글 2) 특정 광고성 댓글 3) 특정한 패턴을 보이는 댓글 이렇게 일반 댓글과는 다른 형태를 가지는 댓글들 이..
근 5개월만에 다시 글을 적어보는 것 같다. 조금 더 자주 적었어야 했는데, 글을 적지 않은 시간에 깊은 생각속에 빠져들었다. 다시 앞으로 나아가고자 한다. 이를 위해 2023년 마지막날에 1년간의 생각들을 정리하고 마무리해보겠다. 지난 1년을 되돌아보기로한다. 업무적으로도 인간관계로도 그냥 생각나는 순서대로 막 적어보겠다. 1. 당연한 분석 결과를 조심하자. 나를 잘 알지 못하는 사람들은 내가 외향인이라고 착각할 때가 있다. 하지만 나는 극 내향인으로 혼자 고민하고 혼자 해결해내는 것을 좋아했다. 그래서 업무도 오래 혼자 끙끙앓아가며 좋은 결과물을 들고가야지!라는 안일한 생각을 했었다. 들고간 결과 해당 변동은 당연한 결과였다. 이 때 오래 고민하는 것이 아니라 만약 바로 보고를 드리거나 사내 슬랙, ..
항상 데이터분석을 혼자 하다보면 다양한 고민에 빠지는 것 같았다. 내가 지금 이 분석을 왜하고있지? 이런 방향으로 진행하는게 맞나? 등의 길을 헤매는 경우가 있다. 방향을 제대로 잡지 못했을 때 나오는 생각들이다. 그래서 나는 분석가 커뮤니티, 컨퍼런스, 스터디 참여 등으로 이러한 문제를 해결하고자 하였다. 이런 것들은 누가 떠먹여주는 것이 아니다. 스스로 찾아보고 자신에게 도움이 될 만한 것들을 선별해 나가야하는것이다. 매번 컨퍼런스를 참여하고 싶었지만 시간이 없어서, 회사 생활의 적응이 더 필요해서와 같은 핑계 아닌 핑계를 대곤 했었다. 그러나 드디어 좋은 기회로 회사에서 티켓을 주어 Modern Growth Stack 2023에 참여할 수 있었다. 다른 분석가들은 각자의 도메인에서 어떤 문제를 정의..
이번에는 RFM 분석에대해서 글을 써보려고 합니다. 일전에 회사에서 유저들의 행동을 분석해간적이 있는데, 이것을 좀 더 단위를 넓혀 군집에 따라 행동을 특정지을 수 있지 않을까?란 물음이 기반이 되어 찾게 된 분석 방법입니다. 군집화에는 흔히 말하는 kmeans, dbscan, 인구통계학적 정보 기반, RFM 방법 등등이 있을 것입니다. 저는 군집의 고도화를 요구하기보다는 빠르게 나눠볼 수 있는 방법이 필요했습니다. 여러가지 방법론을 찾다가 RFM에 대해 알게되어 이를 직접 적용하기로 하였고, 리마인드 차원에서 글을 남기게 되었습니다. RFM이란? 이제 RFM 분석에 대해 설명드리도록 하겠습니다. Recency : 얼마나 최근에 구매했는지? Frequency: 구매 빈도는 어떠했는지? Monetary: ..