목록전체 글 (81)
tak's data blog
지난 9월말(?)부터 대학교때부터 관심만 가지고 있던 글또라는 모임을 시작하게 되었습니다. 제 나이 또래 데이터를 하는 분들이라면 성윤님에 대해서 많이 들어보고 글또라는 모임도 관심을 가지고 있었을텐데요 그 마지막을 함께하게 되어 영광이라는 말과 함께 앞으로 6개월간의 활동을 어떻게 할지에 대해 계획과 다짐의 글로 나아가보도록 하겠습니다. 평소에도 글을 2주에 한번씩 작성하지는 않았던 것 같은데, 책임감? 강제성?을 가지고 2주에 한번 글을쓰려니 쉽지는 않은 것 같네요... 하지만 역시 혼자 하는것보다는 동일한 목표를 가지고 열정적인 사람들과 함께하는 것이 자극도 되고 좋은 것 같습니다. 글또에는 운동 소모임, 스터디 소모임 등등 다양한 소모임이 있고 그 안에서 누구보다 열심히 하루하루를 살아가시는 6..
글또! 아주 오래전부터 지원할까말까 고민이 되었던 모임으로 드디어 지원하게 되었습니다. 글쓰는 또라이가 세상을 바꾼다. 이름부터 너무 마음에 들었고 이러한 작은 변화에 동조하고 싶은 생각이 들었습니다. 데이터분석가 혹은 다양한 직무들과 이야기도 나누며 서로의 지식을 공유하고 싶었고, 이번이 마지막 기수 모집이라길래 지원을 놓칠 수가 없더라구요.. 그래서 좋은 기회로 삶의 지도도 작성해보며 그 내용을 공유해보도록 하겠습니다! 구구단을 좋아하던, 수학을 좋아하던, 숨은 의미 찾기를 좋아하던어렸을 때부터 숫자와 가깝게 지냈던 기억이 있습니다. 구구단을 처음 어린이 장난감으로 접해 보았을 때 왠지 모르게 그 숫자가 싫지 않고 하나하나 외워가는 재미가 있었습니다. 구구단을 좋아하던 어린아이가 학교에 입학하고 나니..
지난 결론으로는 nextfield의 적응/비적응 여부와 이탈은 통계적으로 유의성이 없다는 결론을 내릴 수 있었습니다.https://taek98.tistory.com/76 피파온라인4 - 인과관계를 고려한 이탈 분석(PSM 매칭기법)전에 작성했었던 자료에 이어서 분석을 진행하도록 하겠습니다! https://taek98.tistory.com/66 피파온라인4 이탈, 진성유저 분석_이탈유저는 nextfield에 적응할까? 배경 선정 이탈 분석이라는 주제를 잡taek98.tistory.com 마지막 프로젝트를 진행하면서 그래서 이탈과 관련이 있거나 없으면 어떻게 액션을 제시할 수 있을까? 직접적인 액션으로 나아갈 수 있는 새로운 분석방법은 또 무엇이 있을까??고민을 하던 찰나에 인과추론에 대해 조금씩 공부해보..
이번에 읽게된 책은 인간관계론으로 유명하신 데일 카네기의 "자기관리론" 책이다. 평소에 걱정이 많고 생각이 많은 나로써 데일 카네기의 책을 언젠가 한번쯤은 읽어봐야지 생각만하다가 선물받은 기념으로 드디어 읽게된 책으로 내용에 대한 간단한 후기들을 정리해보고자 한다. (한달에 한권을 읽어보자라는 다짐을 하지만 마음처럼 쉽지가 않은데 기간이 아니라 그냥 꾸준히 읽어보는 것을 목표로 해야겠다.) 위의 책 표지에서도 볼 수 있듯이 걱정이 내 인생을 망치기 전에 반드시 읽어야 할 책! 가장 현실적이고 효과가 검증된 실행법 수록.이라고 벌써 독자들의 이목을 집중시킨다. 나를 위해 만들어진 책이 아닐까하고 읽어본 내용은 다음과 같다. 1. 사례기반크게 여러 실존인물들이 겪었던 내용 + 그들이 가졌던 걱정 + 그에 따..
https://taek98.tistory.com/108 네이버 뉴스댓글 어뷰징분석 (3)어뷰징 정의 및 분석지난 시간에 이어서 어뷰징 정의 및 분석 단계로 나아가보겠다. 어뷰저의 기준은 크게 다음과 같다. 1. 어뷰징 정의 작성한 댓글로 하여금 타인에게 영향을 끼치게 만들고(부정적이든 긍정적이taek98.tistory.com지난 프로젝트의 끝은 다음과 같았습니다.네이버 뉴스 어뷰징 유저는 1) 댓글이 10위권 내에 들었던 횟수가 많은 작성자 중2) 댓글 수 대비 top10 댓글 달성 비율이 비정상적인 사람으로 정의한 결과 정치, 사회, 경제 뉴스 분야에서 몇몇 유저를 정의해낼 수 있었습니다. 하지만 단순 수치에 근거한 결론이었습니다. 그래서 추가적인 머신러닝 모델링을 통해 어뷰징유저의 분포를 추정하고자..
GMM 개념GMM은 데이터 포인트가 평균과 분산이 다른 여러 가우시안 분포의 혼합에서 생성된다고 가정합니다. 가우시안 분포를 사용하여 클러스터링 함으로써 Kmeans 모델을 확장시키고, 군집의 평균뿐만 아니라 공분산도 고려하며 타원체 모양을 모델링할 수 있습니다. 특히 이러한 특징으로 이상탐지 분야에서 많이 활용되고 있습니다. *학습내용에 대한 출처: https://www.youtube.com/watch?v=NNwkDi-2xVQ 위와 같은 방식은 GMM에서 모수 추정이라고 하는데, 모수 추정은 대표적으로 2가지를 추정합니다.개별 정규분포의 평균과 분산각 데이터가 어떤 정규분포에 해당되는지의 확률이러한 모수 추정을 위해 GMM은 EM알고리즘 방법을 사용합니다. 이러한 과정을 진행하기 전에 우리는 다음과..
SQL 레시피 책을 공부하면서 현업에서 쓰일법한 코드들을 타이핑 해두었고,빠르게 필요할 때마다 보기 위해서 다음과 같이 정리해두었다. 한번 훑어보긴 했지만 아직 직접 적용해보지 못한 코드가 있어서 추후에 다시 작성해야겠다.-- 사용자의 방문 빈도 집계하기WITHaction_log_with_dt AS (SELECT * ,SUBSTR(STAMP, 1, 10) AS dt FROM action_log),action_day_count_per_user AS (SELECT user_id ,COUNT(DISTINCT dt) AS action_day_count FROM action_log_with_dt WHERE dt BETWEEN '2016-11-01' AND '2016-1..
태블로, 데이터 분석가라면 거의 대부분이 알고 있는 시각화 툴이다. 파이썬으로 투닥투닥 거리는 것보다 간단한 그래프라면 태블로를 활용하며 보기좋은 시각화를 빠르고 쉽게 그려낼 수 있기도 하다. 태블로를 직접 사용해본 경험이 많이 없어서 까먹기도 했고, 빠르게 2주 무료 체험을 통해 그안에 해당 부스트코스 무료강의를 들으며 공부해보고자 한다. https://www.boostcourse.org/ds121 데이터 시각화를 위한 태블로부스트코스 무료 강의www.boostcourse.org요즘 무료 강의가 엄청 많은데 그중에서도 쉽고 빠르게 이해가 가능한 것 같아서 좋았다. 내용 중에 기억에 남겨야할 부분 등을 위주로 정리해보도록 하겠다. 오늘은 1. 태블로 이해하기 강의 내용을 간단히 정리해보겠다. 1. ..