tak's data blog

간단한 통계 개념 복습-1 본문

통계 관련

간단한 통계 개념 복습-1

hyuntaek 2022. 9. 15. 15:17
반응형
SMALL

 

데이터분석을 진행하면서 단순하게 집단 간의 수치를 barplot등으로 비교해보고 아래와 같은 예시로 결론을 내렸던 경우가 많았습니다.  ex) 이탈유저가 진성유저에비해 구매횟수가 높다.

 

하지만 이게 통계적으로 올바른지 근거가 필요했고, 그에 따라서 결과조차 달라진 다는 점을 

https://taek98.tistory.com/76

 

피파온라인4 - PSM을 통한 결과 번복?(이탈 분석)

전에 작성했었던 자료에 이어서 분석을 진행하도록 하겠습니다! https://taek98.tistory.com/66 피파온라인4 이탈, 진성유저 분석_이탈유저는 nextfield에 적응할까? 배경 선정 이탈 분석이라는 주제를 잡

taek98.tistory.com

를 통해서 더 배우게 되었습니다. 그리고 인턴 기간중 이탈분석 등에서 통계분석을 통한 근거를 마련하지 못한 점이 너무 아쉬웠습니다. 이번 기회에 제대로 통계에 대한 복습을 진행하고 python을 통해 가설검정 등을 진행하는 과정을 나아가도록 하겠습니다!!

 

 

 

표본: 대개 모집단에 대한 자료를 모두 얻기는 어렵거나 불가능할 때 미지의 모집단의 특성을 연구하기 위하여 모집단에서 일부 자료를 추출한 것.

 

 

왜도: 자료의 기울어짐을 측정하는 법. 오른쪽꼬리가 길다(왜도 > 0)

첨도: 자료가 얼마나 뾰족한지 알아보는 측도

 

 

확률: 어떤 사건이 일어날 가능성을 0~1사이의 실수로 표시하는 것.

 

 

확률변수: 동전 던지기에서 X를 ‘앞면이 나오는 횟수’라고 정의하면, X의 가능한 값은 0,1, 2가 될 수 있다. 이와 같이 표본공간의 각 원소에 하나의 실수값을 대응시켜 주는 것을 확률변수라고 한다.

-> 확률변수 값들이 유한개 일 때는 이산형 확률변수

-> 무한개이면 연속형 확률변수

 

 

확률분포함수: 확률변수 X의 값에 대한 확률을 표처럼 정리한 것.

 

 

누적 확률분포함수(cumulative distribution function: cdf): 확률변수 X의 값이 증가하는데에 따른 누적확률 즉 P(X<= x)의 값을 누적 확률분포함수라 한다. F(x).

 

 

표준화 확률변수: 확률변수 X의 평균이 mu, 표준편차 sigma라 하자. 그러면 (X-mu)/sigma는 평균은0, 분산은 1인 확률변수이다. 이 변수를 표준화된 확률변수라고 한다.

 

 

베르누이 시행: 임의의 결과가 ‘성공’, ‘실패’의 두 가지 중 하나인 실험을 뜻한다.

이항 분포: 동일한 성공의 확률을 가진 베르누이 시행을 독립적으로 반복하여 실시할 때의 ‘성공의 회수’를 이항 확률변수라고 하며, 그 분포를 이항분포라고 한다.

성공의 확률이 p인 베르누이 실험을 n번 독립적으로 반복 시행하였을 때 ‘성공의 횟수(X)’가 x일 확률은

E(X) = np, V(X) = np(1-p)

여기서 n과 p를 이항분포의 모수라 한다.

 

 

포아송 분포: 단위시간당 발생하는 사건의 회수를 나타내는 확률변수를 포아송 확률변수라고 하며, 그 분포를 포아송분포라고 한다.

단위시간당 ‘성공의 회수’가 평균 m이라고 할 때 포아송 확률변수 X = ‘단위시간당 성공의 횟수’

E(X) = m, V(X) = m이다. m=람다

수학적으로 n이 매우 크고 p가 아주 작으면 이항분포함수는 포아송분포함수가 됨을 보인다.

 

 

초기하 분포: 유한개의 모집단에서 불량품의 수(‘성공의 횟수’)를 세는 확률변수를 초기하 확률변수라 하고, 그 분포를 초기하분포라고 한다.

크기 N인 모집단(속성이 ‘성공’인 것이 M개, 아닌 것이 N-M개)에서 n개를 추출할 때 ‘성공의 회수(X)’가 x일 확률은

이다.

E(X) = np, V(X) = np(1-p)(N-n)/(N-1)

 

 

정규분포: 평균을 기준으로 종모양의 형태로 좌우 대칭인 분포.

1) 종모양의 연속함수이다.

2) 평균 mu에 관해 서로 대칭이다. 따라서 평균의 좌측과 우측의 확률은 각각 0.5이다.

 

X ~ N(mu, sigma^2)인 정규확률변수일 때 Z = (X-mu)/sigma 변환을 취하면, Z는 평균이 0이고, 표준편차가 1인 정규분포 N(0,1)을 따르게 된다. 이 사실은 N(0,1)인 분포의 모든 확률을 구할 수 있다면, 임의의 정규분포도 확률을 구할 수 있음을 뜻한다. 그래서 N(0,1)을 특히 표준정규분포함수 또는 Z분포라 한다.

 

 

결합확률분포: 두 변수의 표본공간에 확률변수가 정의되어 그 가능한 값에 대한 확률을 분할표와 같이 정리된 것을 이산형 두 변수의 결합확률분포라 한다. 두 변수 X, Y의 결합확률분포는 f(x,y)로 표시한다.

여기서 행의 확률합 P(X = x)를 X의 주변확률분포(marginal probability distribution), 열의 확률합 P(Y= y)를 Y의 주변확률분포라한다. 그리고 한 행의 합 P(X=x)에 대비한 각 행원소의 확률분포를 조건부 확률분포라고 하고 P(Y|X=x)로 표시한다.

 

 

공분산:

즉, 공분산은 양수값, 0, 또는 음수값을 가질 수 있는데 양수값을 갖는다는 것은 결합확률분포를 그렸을 때 X변수의 값이 증가하면 Y변수의 값도 같이 증가하는 확률이 많은 것을 나타내고, 음수값을 갖는다는 것은 반대로 X변수의 값이 증가하면 Y변수의 값이 감소하는 확률이 많은 것을 뜻한다.

 

 

상관계수: -1~1사이의 값을 가질 수 있다. 상관계수의 값이 1에 가깝게 되면 두 변수의 값이 양의 기울기를 갖는 직선에 집중, 반대로 -1에 가까우면 음의 기울기를 갖는 직선에 두 변수의 값이 집중되어 두 경우 모두 변수들이 관련성이 많음을 나타낸다. 상관계수가 0에 가까우면 자료들이 직선 근처에 모여있지 않고 흩어져 있어 두 변수의 관련이 없는 것이 된다. 만일 두 확률변수가 독립이라면 공분산은 0이다. 주의할 것은 공분산이 0이라고 해서 두 확률변수가 반드시 독립이 되지는 않는다는 것이다.

확률변수 X와 Y가 서로 독립이면 E(XY) = E(X)E(Y)이다.

따라서 X와 Y가 독립이면 Cov(X,Y)=0이다.

 

 

단순확률추출법: 모집단의 각 원소가 표본으로 뽑힐 확률이 모두 같도록 표본을 추출하는 방법

표본을 단순확률추출할 때 한번 추출한 원소를 다시 모집단데 포함시키는 복원추출이나, 추출된 원소를 다시 모집단에 넣지 않는 비복원추출

 

 

모수: 모집단의 특성값

통계적 실험이나 조사의 목적은 모집단에 대한 정보를 알아보려고 하는 것이다. 모집단의 정보란 대개 모평균, 모분산, 모비율 등과 같은 모집단의 특성값을 말한다.

 

 

통계량: 표본의 특성값

표집분포: 표본통계량의 분포

 

 

모집단이 정규분포라면 표본평균의 표집분포는 평균이 모평균과 같고 분산이 (모분산/n)인 정규분포이다.

(표본평균의 표집분포)

복원추출 --– 모집단의 분포가 정규분포인 경우

모집단이 모평균 mu, 모분산 sigma^2인 정규분포를 따를 때 크기가 n인 표본을 단순확률 복원추출하면

1) 모든 가능한 표본평균들의 평균은 모평균과 같다.

2) 모든 가능한 표본평균들의 분산은 모분산을 n으로 나눈 값이다.

3) 모든 가능한 표본평균들의 분포는 정규분포이다.

Xbar ~ N(mu, sigma^2 / n)

 

중심극한정리: 모집단의 분포 형태에 상관없이 복원추출이면 위 내용 중 1)2)번의 사실은 그대로 성립한다. 만약 표본의 크기(n)가 충분히 크면 모집단의 분포가 정규분포가 아니더라도 표본평균의 표집분포는 근사적으로 정규분포임을 보일 수 있는데, 이를 중심극한정리라고 한다.

 

 

가설검정: 표본을 이용하여 미지의 모집단 모수에 대한 두가지 가설을 놓고 어느 가설을 선택할 것인지 통계적으로 의사결정을 하는 것이다.

 

 

제1종 오류: 귀무가설이 참일 때, 대립가설을 채택하는 것

제2종 오류: 대립가설이 참일 때, 귀무가설을 채택하는 것

 

 

p값: 가설을 기각하지 못한 근거의 정도는 관찰된 표본평균의 값을 임계값으로 하였을 때의 제 1종 오류 확률을 계산하면 알 수 있는데 이를 p값이라 한다.

(가설이 맞다고 가정하는 경우에 가설을 검정하기 위해 사용하는 검정통계량의 값이 표본에서 나올 확률(값이 작을수록 주어진 가설하에서 나오기 어렵다.))

귀무가설이 옳다고 가정했을 때, 그에 반하는 사건이 발생할 확률

 

반응형
LIST