목록통계 관련 (4)
tak's data blog
지난시간 카이제곱 검정 포스팅을 이후로 통계분석 포스팅을 또 진행하겠습니다. 이번에는 분산분석에 대해 다뤄보도록 하겠습니다. 분산분석 정의: 분산분석이란 서로 다른 그룹(3개 이상)의 평균에서 분산값을 비교하는 데 사용되는 통계 공식입니다. 서로 다른 그룹의 평균간에 차이가 있는지 확인하는 방법. 집단간분산/집단내분산 기반의 F분포를 활용함 만약 집단내분산이 크다면 집단간 평균차이를 확인하는 것이 어렵다. 분산분석에서는 집단간의 분산의 동질성을 가정하고 하기 때문에 만약 분산의 차이가 크다면 그 차이를 유발한 변인을 찾아 제거해야 한다. 그렇지 못하면 분산분석의 신뢰도는 나빠진다. 분산분석을 위해서는 아래와 같은 가정이 필요합니다. 1. 정규성 2. 분산의 동질성 3. 독립성 분산분석의 종류 1. 일원분..
이어서 작성해보도록 하겠습니다. 회귀분석: 일상생활에서 둘 또는 그 이상의 변수들이 서로 어떤 관계를 가지고 변화하는가를 규명해야 할 경우를 자주 만나게 된다. 이를테면, 1) 아들의 키와 아버지의 키와의 관련성에 대해 조사(단순회귀) 2) 어느 화학공정에서 생산량이 온도와 압력과 어떤 관계를 갖는지 조사하는 경우(다중회귀) 이와 같이 변수와 변수 사이의 관계를 규명하고자 할 때 사용되는 통계적 방법 중의 하나가 회귀분석이다. 이 분석방법에서는 먼저 변수들 간의 관계를 나타내는 타당한 수학적 모형을 설정하고, 변수들의 측정된 값을 이용하여 그 모형을 추정한 다음, 추정한 모형에 의해 변수들 간의 관계를 설명하든지 또는 예측등의 분석에 응용하게 된다. 목적: 변수들 간의 관련성 정도와 관련형태 조사 및 예..
이번 포스팅은 단일표본, 독립표본, 대응표본에 따른 t검정을 python으로 실시해볼 예정입니다. 주어진 데이터는 피파온라인4의 수집 데이터를 활용하도록 하겠습니다. 참고자료: https://www.youtube.com/watch?v=EmoddFGcd5Y&list=PLCt8K88AxcKPucYITFaLshFeCIp8F9IGk&index=6 단일표본 t검정 - 특정값이 모집단의 평균값과 차이가 있는가? # 패스시도횟수가 100회가 모집단의 평균과 같다고 볼 수 있는가? from scipy import stats print(stats.ttest_1samp(nextfield7['passTry'], 100)) Ttest_1sampResult(statistic=3.9781531774765115, pvalue=7...
데이터분석을 진행하면서 단순하게 집단 간의 수치를 barplot등으로 비교해보고 아래와 같은 예시로 결론을 내렸던 경우가 많았습니다. ex) 이탈유저가 진성유저에비해 구매횟수가 높다. 하지만 이게 통계적으로 올바른지 근거가 필요했고, 그에 따라서 결과조차 달라진 다는 점을 https://taek98.tistory.com/76 피파온라인4 - PSM을 통한 결과 번복?(이탈 분석) 전에 작성했었던 자료에 이어서 분석을 진행하도록 하겠습니다! https://taek98.tistory.com/66 피파온라인4 이탈, 진성유저 분석_이탈유저는 nextfield에 적응할까? 배경 선정 이탈 분석이라는 주제를 잡 taek98.tistory.com 를 통해서 더 배우게 되었습니다. 그리고 인턴 기간중 이탈분석 등에서..