목록분류 전체보기 (71)
tak's data blog

이번 시간에는 지난번 크롤링 했던 데이터를 기반으로 간단한 인사이트 도출을 실시하도록 하겠습니다. 어떤 사건으로 인해 댓글수가 많아졌는지 그리고 어떠한 사건이 있었을 때 어뷰징 유저들이 즐비하였는지 등의 순서로 나아가보도록 하겠습니다. 우선 수집된 데이터가 다양하지 않고 그리고 전체적인 흐름만 살펴보려고 하기 때문에 눈에 띌만한 인사이트는 도출하지 않았습니다. 분석에는 다음과 같은 내용들이 활용되었습니다. 기사: 기사 id, 기사 제목, 기사 입력 시각, 기사 내용 댓글: 댓글 작성 기사id, 작성자 id, 댓글 작성 시각, 댓글 내용, 공감수, 비공감수 전체 댓글 수 노트북 성능 상 2년간의 모든 데이터를 수집할 수 없었고 일부 데이터만 살펴보았을 때 2022년 2월을 기점으로 우하향하는 그래프를 확인..

주의 사항: 어뷰저라고 정의하는 방법이나 분석 방향 등은 순전히 작성자만의 생각이고 Naver는 전혀 상관없다고 말씀드리고 싶습니다. Naver는 편향성을 가지지 않는 중립적인 플랫폼입니다. 0. 문제 정의 문득 뉴스, 웹툰, 게임 등 여러 매체들의 댓글을 보면 심상치 않은 상황들이 오고갑니다. 서로 시비를 걸며 싸우거나 각자의 생각을 주입하며 선동하기도 하고 또는 광고성 댓글로 댓글창을 어지럽히곤 합니다. 저는 이러한 상황에서 데이터분석으로 어뷰저를 판별해볼 수 있지 않을까?라는 물음을 가지게 되었습니다. 여기서 제가 정의하는 어뷰저란 1) 남에게 생각을 주입하는 등의 영향력을 끼칠 수 있는 댓글 2) 특정 광고성 댓글 3) 특정한 패턴을 보이는 댓글 이렇게 일반 댓글과는 다른 형태를 가지는 댓글들 이..

근 5개월만에 다시 글을 적어보는 것 같다. 조금 더 자주 적었어야 했는데, 글을 적지 않은 시간에 깊은 생각속에 빠져들었다. 다시 앞으로 나아가고자 한다. 이를 위해 2023년 마지막날에 1년간의 생각들을 정리하고 마무리해보겠다. 지난 1년을 되돌아보기로한다. 업무적으로도 인간관계로도 그냥 생각나는 순서대로 막 적어보겠다. 1. 당연한 분석 결과를 조심하자. 나를 잘 알지 못하는 사람들은 내가 외향인이라고 착각할 때가 있다. 하지만 나는 극 내향인으로 혼자 고민하고 혼자 해결해내는 것을 좋아했다. 그래서 업무도 오래 혼자 끙끙앓아가며 좋은 결과물을 들고가야지!라는 안일한 생각을 했었다. 들고간 결과 해당 변동은 당연한 결과였다. 이 때 오래 고민하는 것이 아니라 만약 바로 보고를 드리거나 사내 슬랙, ..

항상 데이터분석을 혼자 하다보면 다양한 고민에 빠지는 것 같았다. 내가 지금 이 분석을 왜하고있지? 이런 방향으로 진행하는게 맞나? 등의 길을 헤매는 경우가 있다. 방향을 제대로 잡지 못했을 때 나오는 생각들이다. 그래서 나는 분석가 커뮤니티, 컨퍼런스, 스터디 참여 등으로 이러한 문제를 해결하고자 하였다. 이런 것들은 누가 떠먹여주는 것이 아니다. 스스로 찾아보고 자신에게 도움이 될 만한 것들을 선별해 나가야하는것이다. 매번 컨퍼런스를 참여하고 싶었지만 시간이 없어서, 회사 생활의 적응이 더 필요해서와 같은 핑계 아닌 핑계를 대곤 했었다. 그러나 드디어 좋은 기회로 회사에서 티켓을 주어 Modern Growth Stack 2023에 참여할 수 있었다. 다른 분석가들은 각자의 도메인에서 어떤 문제를 정의..

[내 생각] "좋은 질문에는 자기 자신과 주위 사람들의 인생을 보다 바람직한 방향으로 바꾸어가는 강력한 힘이 있기 때문입니다." 굿 퀘스천을 읽으면서 와 닿았던 한 구절이다. 이 구절을 통해 나는 과거를 회상할 수 있었다. 인턴 기간 중 분석을 진행할때 단순히 "barplot을 그려라."등과 같은 yes or no 대답이 아닌 "변수들간의 관계를 살펴보면 다른 특징이 있지 않을까?"등 추후에 내가 스스로 생각할 수 있게끔 유도해주셨던 기억이 난다. 그 당시에 스스로 생각하며 거기서 끝이 아니라 더 찾아보고 싶어 이것저것 시도하는 과정에서 즐거움을 느꼈다. 나도 이렇게 하나의 질문에서 파생되어 why라는 물음을 가져 성장을 유도하는 사람이 되고 싶다.(내 스스로나 주변 사람들에게나) 이 책을 읽고나서 작년..

이번에 새롭게 읽은 책 '역마'에 대한 생각을 한번 적어보려고 한다. 우선 무언가를 습득해야 한다! 라는 강박없이 자연스럽게 의식의 흐름대로 읽은 책이다. 이런 책을 읽어본게 거의 몇년만인지 모르겠다. 이와 같은 책은 군대에 있을 때 멘탈관리나 마음가짐을 바로잡기 위해 읽었던 기억이 있다. 살아감에 있어서 여유가 없다고 느껴질 때, 나와 같은 취준생분들이 쉬는 시간에 짤막하게 읽기에 좋은 책인 것 같다. 글쓴이는 페이스북에 자신이 남긴 리뷰의 좋아요나 혹은 사람들의 반응을 통해 강박아닌강박?을 가졌다고 했다. 글쓰기를 직업으로 가지고 있는 사람이 그런 상황에서 속으로 얼마나 갑갑했을까 생각이 든다. 그래서 상황에서 벗어나기 위해 아무생각없이 18일동안 이곳저곳 여행을 하며 자신이 무엇을 먹었고, 어디를 ..

전에 작성했었던 자료에 이어서 분석을 진행하도록 하겠습니다! https://taek98.tistory.com/66 피파온라인4 이탈, 진성유저 분석_이탈유저는 nextfield에 적응할까? 배경 선정 이탈 분석이라는 주제를 잡고 진성, 이탈 유저들의 플레이 특징을 위주로 파악해보려고 하였다. 우선 피파온라인4는 특성상 nextfield라는 체감 개선 업데이트가 거의 반기별로 이루어 taek98.tistory.com 우선 아래와 같은 방법을 위해 ncsoft의 데이터분석 블로그를 참고했다는 점을 말씀드리고 싶습니다. 참고: https://danbi-ncsoft.github.io/works/2020/06/17/works-pk_analysis.html PK를 당한 유저는 게임에서 이탈할까? danbi-ncso..

데이터가 아래와 같을 때 (cust: 고객) 고객별로 order_stack(주문누적횟수)를 1씩늘려가며 작성하려고 한다. 순간 groupby를 잊어버려서 비효율적인 코드를 작성하였다. 진짜 단순하게 생각해서 고객(cust)을 unique하게 따로 뽑아둔다음 고객에따라 데이터프레임을 재생성해 rank함수로 순위를 매기고 다시 데이터프레임을 합치려고 하였다... 참 1차원적인 생각이었는데 데이터가 상당수가 되다보니 이렇게하면 1시간 이상의 시간이 소요되기 때문에 apply를 사용해서 해결할 수는 없을까 고민했다. 상품재구매기간_final['order_stack'] = 0 cust = 상품재구매기간_final['cust'].unique() df = 상품재구매기간_final[['index', 'cust', 'o..