목록분류 전체보기 (81)
tak's data blog
[내 생각] "좋은 질문에는 자기 자신과 주위 사람들의 인생을 보다 바람직한 방향으로 바꾸어가는 강력한 힘이 있기 때문입니다." 굿 퀘스천을 읽으면서 와 닿았던 한 구절이다. 이 구절을 통해 나는 과거를 회상할 수 있었다. 인턴 기간 중 분석을 진행할때 단순히 "barplot을 그려라."등과 같은 yes or no 대답이 아닌 "변수들간의 관계를 살펴보면 다른 특징이 있지 않을까?"등 추후에 내가 스스로 생각할 수 있게끔 유도해주셨던 기억이 난다. 그 당시에 스스로 생각하며 거기서 끝이 아니라 더 찾아보고 싶어 이것저것 시도하는 과정에서 즐거움을 느꼈다. 나도 이렇게 하나의 질문에서 파생되어 why라는 물음을 가져 성장을 유도하는 사람이 되고 싶다.(내 스스로나 주변 사람들에게나) 이 책을 읽고나서 작년..
이번에 새롭게 읽은 책 '역마'에 대한 생각을 한번 적어보려고 한다. 우선 무언가를 습득해야 한다! 라는 강박없이 자연스럽게 의식의 흐름대로 읽은 책이다. 이런 책을 읽어본게 거의 몇년만인지 모르겠다. 이와 같은 책은 군대에 있을 때 멘탈관리나 마음가짐을 바로잡기 위해 읽었던 기억이 있다. 살아감에 있어서 여유가 없다고 느껴질 때, 나와 같은 취준생분들이 쉬는 시간에 짤막하게 읽기에 좋은 책인 것 같다. 글쓴이는 페이스북에 자신이 남긴 리뷰의 좋아요나 혹은 사람들의 반응을 통해 강박아닌강박?을 가졌다고 했다. 글쓰기를 직업으로 가지고 있는 사람이 그런 상황에서 속으로 얼마나 갑갑했을까 생각이 든다. 그래서 상황에서 벗어나기 위해 아무생각없이 18일동안 이곳저곳 여행을 하며 자신이 무엇을 먹었고, 어디를 ..
지난 시간에는 아래와 같이 kaggle데이터를 활용해서 직접 어뷰징 유저를 정의하고 분석하는 과정을 가졌습니다. https://taek98.tistory.com/83 배틀그라운드 어뷰징 정의 및 탐지(kaggle 데이터 활용)(1) 실제로 게임을하면서 어뷰징으로 이탈했던 경험과 이를 해결하기 위해 내가 할 수 있는 일은 무엇일까?? 고민하며 게임 어뷰징 탐지라는 분야에 관심을 가지게 되었다. 게임데이터로 어뷰징탐 taek98.tistory.com 직접 정의한 어뷰징 유저들을 기반으로 이제는 모델링을 진행해보도록 하겠습니다. 우선 데이터의 특성상 불균형한 클래스를 가지고 있었습니다. (0은 일반유저이고 1은 어뷰징유저입니다.) 아래 내용 출처: https://www.youtube.com/watch?v=Vh..
실제로 게임을하면서 어뷰징으로 이탈했던 경험과 이를 해결하기 위해 내가 할 수 있는 일은 무엇일까?? 고민하며 게임 어뷰징 탐지라는 분야에 관심을 가지게 되었다. 게임데이터로 어뷰징탐지를 직접 해보면 어떨까?라는 의문을 시작으로 다음과 같은 분석을 진행하였다. 배틀그라운드 어뷰징 유저 탐지이다. 사실 아래 데이터는 kaggle 대회로 유저들의 순위를 예측하는 대회이다. https://www.kaggle.com/competitions/pubg-finish-placement-prediction/data PUBG Finish Placement Prediction (Kernels Only) | Kaggle www.kaggle.com 0. 문제인식 데이터를 보는 과정에서 다음 2가지에대한 의문이 생겼다. 1) w..
지난시간 카이제곱 검정 포스팅을 이후로 통계분석 포스팅을 또 진행하겠습니다. 이번에는 분산분석에 대해 다뤄보도록 하겠습니다. 분산분석 정의: 분산분석이란 서로 다른 그룹(3개 이상)의 평균에서 분산값을 비교하는 데 사용되는 통계 공식입니다. 서로 다른 그룹의 평균간에 차이가 있는지 확인하는 방법. 집단간분산/집단내분산 기반의 F분포를 활용함 만약 집단내분산이 크다면 집단간 평균차이를 확인하는 것이 어렵다. 분산분석에서는 집단간의 분산의 동질성을 가정하고 하기 때문에 만약 분산의 차이가 크다면 그 차이를 유발한 변인을 찾아 제거해야 한다. 그렇지 못하면 분산분석의 신뢰도는 나빠진다. 분산분석을 위해서는 아래와 같은 가정이 필요합니다. 1. 정규성 2. 분산의 동질성 3. 독립성 분산분석의 종류 1. 일원분..
이어서 작성해보도록 하겠습니다. 회귀분석: 일상생활에서 둘 또는 그 이상의 변수들이 서로 어떤 관계를 가지고 변화하는가를 규명해야 할 경우를 자주 만나게 된다. 이를테면, 1) 아들의 키와 아버지의 키와의 관련성에 대해 조사(단순회귀) 2) 어느 화학공정에서 생산량이 온도와 압력과 어떤 관계를 갖는지 조사하는 경우(다중회귀) 이와 같이 변수와 변수 사이의 관계를 규명하고자 할 때 사용되는 통계적 방법 중의 하나가 회귀분석이다. 이 분석방법에서는 먼저 변수들 간의 관계를 나타내는 타당한 수학적 모형을 설정하고, 변수들의 측정된 값을 이용하여 그 모형을 추정한 다음, 추정한 모형에 의해 변수들 간의 관계를 설명하든지 또는 예측등의 분석에 응용하게 된다. 목적: 변수들 간의 관련성 정도와 관련형태 조사 및 예..
이번 포스팅은 단일표본, 독립표본, 대응표본에 따른 t검정을 python으로 실시해볼 예정입니다. 주어진 데이터는 피파온라인4의 수집 데이터를 활용하도록 하겠습니다. 참고자료: https://www.youtube.com/watch?v=EmoddFGcd5Y&list=PLCt8K88AxcKPucYITFaLshFeCIp8F9IGk&index=6 단일표본 t검정 - 특정값이 모집단의 평균값과 차이가 있는가? # 패스시도횟수가 100회가 모집단의 평균과 같다고 볼 수 있는가? from scipy import stats print(stats.ttest_1samp(nextfield7['passTry'], 100)) Ttest_1sampResult(statistic=3.9781531774765115, pvalue=7...
데이터분석을 진행하면서 단순하게 집단 간의 수치를 barplot등으로 비교해보고 아래와 같은 예시로 결론을 내렸던 경우가 많았습니다. ex) 이탈유저가 진성유저에비해 구매횟수가 높다. 하지만 이게 통계적으로 올바른지 근거가 필요했고, 그에 따라서 결과조차 달라진 다는 점을 https://taek98.tistory.com/76 피파온라인4 - PSM을 통한 결과 번복?(이탈 분석) 전에 작성했었던 자료에 이어서 분석을 진행하도록 하겠습니다! https://taek98.tistory.com/66 피파온라인4 이탈, 진성유저 분석_이탈유저는 nextfield에 적응할까? 배경 선정 이탈 분석이라는 주제를 잡 taek98.tistory.com 를 통해서 더 배우게 되었습니다. 그리고 인턴 기간중 이탈분석 등에서..