목록분류 전체보기 (79)
tak's data blog
지난시간 카이제곱 검정 포스팅을 이후로 통계분석 포스팅을 또 진행하겠습니다. 이번에는 분산분석에 대해 다뤄보도록 하겠습니다. 분산분석 정의: 분산분석이란 서로 다른 그룹(3개 이상)의 평균에서 분산값을 비교하는 데 사용되는 통계 공식입니다. 서로 다른 그룹의 평균간에 차이가 있는지 확인하는 방법. 집단간분산/집단내분산 기반의 F분포를 활용함 만약 집단내분산이 크다면 집단간 평균차이를 확인하는 것이 어렵다. 분산분석에서는 집단간의 분산의 동질성을 가정하고 하기 때문에 만약 분산의 차이가 크다면 그 차이를 유발한 변인을 찾아 제거해야 한다. 그렇지 못하면 분산분석의 신뢰도는 나빠진다. 분산분석을 위해서는 아래와 같은 가정이 필요합니다. 1. 정규성 2. 분산의 동질성 3. 독립성 분산분석의 종류 1. 일원분..
카이제곱 검정/적합도 검정(Goodness of Fit Test) - 관측도수와 기대도수에 따른 비율차이가 통계적으로 유의한가? # 매치결과(승,무,패)에 따른 이탈여부 X= pd.crosstab(nextfield7.churn, nextfield7.matchResult) X Ob = X.values[1,:] Pr = np.array([0.3,0.3,0.4]) n = X.values[1,2] E = n*Pr stats.chisquare(Ob, E) Power_divergenceResult(statistic=272.4761904761905, pvalue=6.800596585853635e-60) # 모집단에 알려진 기대도수가 실제관측도수에 따른 비율과 통계적으로 유의한 차이가 있는가? # 관측도수와 기대도수에..
이어서 작성해보도록 하겠습니다. 회귀분석: 일상생활에서 둘 또는 그 이상의 변수들이 서로 어떤 관계를 가지고 변화하는가를 규명해야 할 경우를 자주 만나게 된다. 이를테면, 1) 아들의 키와 아버지의 키와의 관련성에 대해 조사(단순회귀) 2) 어느 화학공정에서 생산량이 온도와 압력과 어떤 관계를 갖는지 조사하는 경우(다중회귀) 이와 같이 변수와 변수 사이의 관계를 규명하고자 할 때 사용되는 통계적 방법 중의 하나가 회귀분석이다. 이 분석방법에서는 먼저 변수들 간의 관계를 나타내는 타당한 수학적 모형을 설정하고, 변수들의 측정된 값을 이용하여 그 모형을 추정한 다음, 추정한 모형에 의해 변수들 간의 관계를 설명하든지 또는 예측등의 분석에 응용하게 된다. 목적: 변수들 간의 관련성 정도와 관련형태 조사 및 예..
이번 포스팅은 단일표본, 독립표본, 대응표본에 따른 t검정을 python으로 실시해볼 예정입니다. 주어진 데이터는 피파온라인4의 수집 데이터를 활용하도록 하겠습니다. 참고자료: https://www.youtube.com/watch?v=EmoddFGcd5Y&list=PLCt8K88AxcKPucYITFaLshFeCIp8F9IGk&index=6 단일표본 t검정 - 특정값이 모집단의 평균값과 차이가 있는가? # 패스시도횟수가 100회가 모집단의 평균과 같다고 볼 수 있는가? from scipy import stats print(stats.ttest_1samp(nextfield7['passTry'], 100)) Ttest_1sampResult(statistic=3.9781531774765115, pvalue=7...
데이터분석을 진행하면서 단순하게 집단 간의 수치를 barplot등으로 비교해보고 아래와 같은 예시로 결론을 내렸던 경우가 많았습니다. ex) 이탈유저가 진성유저에비해 구매횟수가 높다. 하지만 이게 통계적으로 올바른지 근거가 필요했고, 그에 따라서 결과조차 달라진 다는 점을 https://taek98.tistory.com/76 피파온라인4 - PSM을 통한 결과 번복?(이탈 분석) 전에 작성했었던 자료에 이어서 분석을 진행하도록 하겠습니다! https://taek98.tistory.com/66 피파온라인4 이탈, 진성유저 분석_이탈유저는 nextfield에 적응할까? 배경 선정 이탈 분석이라는 주제를 잡 taek98.tistory.com 를 통해서 더 배우게 되었습니다. 그리고 인턴 기간중 이탈분석 등에서..
전에 작성했었던 자료에 이어서 분석을 진행하도록 하겠습니다! https://taek98.tistory.com/66 피파온라인4 이탈, 진성유저 분석_이탈유저는 nextfield에 적응할까? 배경 선정 이탈 분석이라는 주제를 잡고 진성, 이탈 유저들의 플레이 특징을 위주로 파악해보려고 하였다. 우선 피파온라인4는 특성상 nextfield라는 체감 개선 업데이트가 거의 반기별로 이루어 taek98.tistory.com 우선 아래와 같은 방법을 위해 ncsoft의 데이터분석 블로그를 참고했다는 점을 말씀드리고 싶습니다. 참고: https://danbi-ncsoft.github.io/works/2020/06/17/works-pk_analysis.html PK를 당한 유저는 게임에서 이탈할까? danbi-ncso..
데이터가 아래와 같을 때 (cust: 고객) 고객별로 order_stack(주문누적횟수)를 1씩늘려가며 작성하려고 한다. 순간 groupby를 잊어버려서 비효율적인 코드를 작성하였다. 진짜 단순하게 생각해서 고객(cust)을 unique하게 따로 뽑아둔다음 고객에따라 데이터프레임을 재생성해 rank함수로 순위를 매기고 다시 데이터프레임을 합치려고 하였다... 참 1차원적인 생각이었는데 데이터가 상당수가 되다보니 이렇게하면 1시간 이상의 시간이 소요되기 때문에 apply를 사용해서 해결할 수는 없을까 고민했다. 상품재구매기간_final['order_stack'] = 0 cust = 상품재구매기간_final['cust'].unique() df = 상품재구매기간_final[['index', 'cust', 'o..
'면접왕 이형'이라는 유튜브 채널을 통해 추천받은 책입니다. 유튜브나 이곳저곳에서 많은 추천이 있었던 책인데 주변 도서관에는 없어서 구매를 했네요! 일본전산의 실화를 바탕으로 한 책으로 읽고나서 많은 생각을 하게 된 책입니다.... 그럼 책을 읽으면서 느꼈던 점이나 내용 정리를 순서없이 생각나는대로 나아가보겠습니다. 이 책은 일본전산이라는 회사가 어떻게 세워졌고, 수많은 어려움을 어떤 마인드로 극복해내어 성공까지 이루었는지의 과정으로 나아갑니다. 일본전산의 모토는 크게 3가지가 있습니다. 1. 즉시 한다. 2. 반드시 한다. 3. 될 때까지 한다. 1) 포기하지 않고 일단 해보기 어떠한 프로젝트나 일을 진행할 때 무작정 안된다는(주어진 환경때문에 진행할 수 없다. 등) 생각을 가지지 않고, 어떻게든 해내..