tak's data blog

간단한 통계 개념 복습-2 본문

통계 관련

간단한 통계 개념 복습-2

hyuntaek 2022. 9. 16. 13:51
반응형
SMALL

 

이어서 작성해보도록 하겠습니다.

 

 

회귀분석: 일상생활에서 둘 또는 그 이상의 변수들이 서로 어떤 관계를 가지고 변화하는가를 규명해야 할 경우를 자주 만나게 된다.

이를테면,

1) 아들의 키와 아버지의 키와의 관련성에 대해 조사(단순회귀)

2) 어느 화학공정에서 생산량이 온도와 압력과 어떤 관계를 갖는지 조사하는 경우(다중회귀)

 

이와 같이 변수와 변수 사이의 관계를 규명하고자 할 때 사용되는 통계적 방법 중의 하나가 회귀분석이다. 이 분석방법에서는 먼저 변수들 간의 관계를 나타내는 타당한 수학적 모형을 설정하고, 변수들의 측정된 값을 이용하여 그 모형을 추정한 다음, 추정한 모형에 의해 변수들 간의 관계를 설명하든지 또는 예측등의 분석에 응용하게 된다.

 

목적: 변수들 간의 관련성 정도와 관련형태 조사 및 예측

 

잔차: 예측된 값들과 실제 관측된 값들의 차이

 

회귀계수의 추정: 회귀분석의 주된 목적중의 하나가 예측이므로, 추정된 회귀식을 이용하여 값을 예측할 때 발생하는 오차를 가능한 작게 하는 식을 선택하고자 한다.

즉, 그래프의 자료를 나타내는 점과 직선까지의 수직거리가 가장 작게 되는 직선이 우리가 원하는 회귀식이다. (이 점과 직선까지의 수직거리를 잔차라고 한다.)

그러나, 모든 점에서 잔차의 값을 최소화할 수는 없고 잔차의 크기를 전체적으로 작게 하는 방법을 선택하여야 한다. 이러한 방법들 중 가장 널리 사용되는 것은 잔차의 제곱의 합을 최소로 하는 회귀식을 구하는 방법으로 이를 최소제곱법이라 한다.

(적합된 회귀식에서 계산된 예측치와 관찰치의 차이인 잔차들의 제곱의 합이 최소가 되도락 회귀계수를 추정하는 법)

 

 

SSR(회귀제곱합): 총변동중 회귀식에 의해 설명된 변동을 나타내며 회귀제곱합이라한다.

SST(총제곱합): 관측값들이 가지는 총변동을 나타내는 제곱합으로 이를 총 제곱합이라 한다.

결정계수(R^2): SSR/SST

즉, 추정된 회귀식이 표본의 변동을 설명하는 측도라고 볼 수 있다.

 

회귀분석에서의 주요 가정

1) 모든 오차의 분산은 동일하다. (등분산성)

2) 오차들은 서로 독립이다. (독립성)

3) 오차들은 정규분포를 따른다. (정규성)

 

 

카이 제곱 검정: 관찰된 빈도가 기대되는 빈도와 유의하게 다른지 검정, 범주형 자료 분석에 활용

 

카이제곱 값 =

 

1) 적합도검정

다항시행에서 각 범주에 속하는 확률 p1, …, pk의 참값은 대개 알려져 있지 않다. 이 때 p1, …, pk의 참값에 대한 가정을 하고 실제 자료 n1, …, nk가 가정된 확률모형(모수가 p1, …, pk인 다항분포모형)에 얼마나 적합한가를 검정하는 것을 적합도검정(Goodness-of-fit test)라고 한다.

H0(귀무가설): 다항시행에서 각 범주에 대한 확률값은 같다.

H1(대립가설): 적어도 하나의 확률 값은 가정된 값과 다르다.

 

2) 독립성검정

분할표에서 있는 두 개 이상의 변수가 서로 독립인지 검정

H0(귀무가설): 두 변수는 연관성이 없다.

H1(대립가설): 두 변수는 연관성이 있다.

 

3) 동질성검정

집단의 분포가 동일한지 검정

H0(귀무가설): 각 집단별로 특성이 같다.

H1(대립가설): 각 집단별로 특성이 모두 같지는 않다.

 

 

모수적 통계분석 방법: 많은 가설검정 방법은 모집단이 정규분포를 따른다는 가정을 필요로 한다. 예를 들어, 한 모집단의 모평균에 대한 가설검정은 모분산을 모를 경우 모집단이 정규분포를 따른다고 가정할 수 있는 경우에 t검정을 이용한다. 두 모집단의 평균 비교를 위한 가설검정도 두 모집단이 정규분포를 따른다는 가정에서 t분포를 이용하여 검정이 가능하다. 또 여러 모집단의 평균 비교를 위한 분산분석에서도 모집단의 정규성과 등분산성이 가정될 경우 F분포를 이용하여 검정한다. 이렇게 특정한 모집단의 분포함수를 가정한 분석방법을 모수적 통계분석 방법이라고 한다.

 

 

비모수적 통계분석 방법: 현실에 나타나는 통계응용 문제에서 위와 같은 모집단의 분포에 대한 가정은 대개 만족하는 경우가 많다. 하지만 과거의 경험이나 관측된 자료를 살펴보면 모집단 분포에 대한 가정이 만족되지 않는 경우도 종종 있고, 어느 때는 표본의 수가 적어 가정이 만족되는지 조사할 수 없는 경우도 있다. 이러한 경우에 적용할 수 있는 통계적 방법이 모집단의 분포 형태에 관한 가정을 하지 않는 비모수적 통계 방법이다. 관측값에 대한 정확한 통계량 값 대신 대응되는 순위나 부호를 많이 사용한다.

반응형
LIST