tak's data blog
python t검정 본문
이번 포스팅은 단일표본, 독립표본, 대응표본에 따른 t검정을 python으로 실시해볼 예정입니다.
주어진 데이터는 피파온라인4의 수집 데이터를 활용하도록 하겠습니다.
참고자료:
https://www.youtube.com/watch?v=EmoddFGcd5Y&list=PLCt8K88AxcKPucYITFaLshFeCIp8F9IGk&index=6
단일표본 t검정
- 특정값이 모집단의 평균값과 차이가 있는가?
# 패스시도횟수가 100회가 모집단의 평균과 같다고 볼 수 있는가?
from scipy import stats
print(stats.ttest_1samp(nextfield7['passTry'], 100))
Ttest_1sampResult(statistic=3.9781531774765115, pvalue=7.430798850607808e-05)
# p값이 0.05보다 커 귀무가설을 기각하지 못하므로 모집단의 평균과 같다고 볼 수 있다.
독립표본 t검정
- 두 집단의 평균 차이가 있는가?
import numpy as np
# 이탈여부에 따른 짧은패스 성공률(shortPass_per) 차이
churn = nextfield7[nextfield7.churn == 'O']
retention = nextfield7[nextfield7.churn == 'X']
range1= np.array(churn.shortPass_per)
range2 = np.array(retention.shortPass_per)
# 등분산 검정
stats.bartlett(range1, range2)
BartlettResult(statistic=0.0993213570916998, pvalue=0.7526455568905275)
# 귀무가설을 기가하지 못하므로 두 집단의 분산이 같다.
print(stats.ttest_ind(range1, range2, equal_var=True))
Ttest_indResult(statistic=-1.5148378381530925, pvalue=0.13037969986278736)
# 두 집단의 평균차이가 있다고 볼 수 없다.
대응표본 t검정
- 짝지어진다. 종속된다. 사전사후 분석
- 두 연속형 변수의 평균 차이가 있는가?
stats.ttest_rel(nextfield7['shortPass_per'], nextfield7['level'])
Ttest_relResult(statistic=-17.96066793838393, pvalue=2.787374606751212e-57)
# 짧은패스 성공률은 레벨과의 평균차이가 있다.
위와 같은 t검정으로 집단 간의 차이를 비교해 볼 수 있었습니다. 다음번에는 카이제곱검정 등의 예시를 작성해보도록 하겠습니다!
'통계 관련' 카테고리의 다른 글
분산분석(ANOVA) - 피파4 공식경기등급에 따른 패스스탯차이 (0) | 2022.10.04 |
---|---|
간단한 통계 개념 복습-2 (2) | 2022.09.16 |
간단한 통계 개념 복습-1 (2) | 2022.09.15 |