Statistics: ch4. 평균차이 검정 (t-test)

1. 평균차이 검정(t-test) 개념

t-test의 가정

  1. 수치형 데이터 타입(일반적으로 interval이나 ratio)
  2. 데이터는 서로 독립이다.
  3. 데이터는 일반화할 수 있는 모집단으로부터 랜덤으로 뽑혔다.
  4. 평균과 표준편차는 중심과 산포도를 나타낼 수 있는 valid descriptor이다 (즉, 정규분포를 따른다)

2. 평균차이 검정 분류

단일 모집단에 대한 검정(집단 1개)

다른 표현으로 단일표본 평균차이 검정(one sample t-test)이라고도 한다. 모집단의 평균이 기준이 되는 어떤 평균값과의 차이가 있는지 없는지 살펴보는 검정방법이다. 실질적인 통계분석 문제에서는 모분산도 모르고 소표본인 경우에 주로 행해진다. 이 경우 검정통계량의 분포가 t분포를 따르기 때문에 t-test라고 부른다. 이때 귀무가설은 ‘모집단의 평균과 기준이되는 어떤 평균값과의 차이가 없다’이다.

  • 모평균에 대한 검정
    • 모분산 $\sigma^2$이 알려져 있는 경우
      • 검정통계량 : $Z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$
    • 모분산 $\sigma^2$이 알려져 있지 않은 경우
      • 검정통계량 : $T=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}=\frac{(\bar{x}-\mu_0)\sqrt{n}}{s}$
  • 모비율에 대한 검정
    • 이항비율 검정(binomial proportion test)
      • 검정통계량 : $\sum_{k=0}^{x}\binom{n}{k}p_0^k(1-p_0)^{n-k}$
    • 정규근사 검정(표본의 크기가 충분히 큰 경우)
      • 표본의 크기가 충분히 큰 경우 표본비율 $\hat{p}=x/n$은 평균이 $p$이고 분산이 $p(1-p)/n$인 정규분포를 따른다.
      • 검정통계량 : $Z=\frac{\hat{p}-p_0}{p_0\sqrt{(1-p_0)/n}}$
  • 모분산에 대한 검정
    • 카이제곱분포를 따른다.
    • 검정통계량 : $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}$

두 모집단에 대한 비교 (집단 2개)

two sample t-test는 두 데이터 집합이 같은 분포에서 추출된건지 여부를 검정한다. 검정통계량의 분자는 항상 $\bar{x_1}-\bar{x_2}$로 같은데 분모가 검정종류에 아래 3가지 기준에 따라서 나뉜다.

  • paired vs. unpaired
    • paired: paired samples t-test
    • unpaired: independent two sample t-test
  • equal variance vs. unequal Variance (주관적으로 해석하기 나름. 등분산검정을 하기도 한다.)
    • equal variance: 같은 모집단에서 나왔을거라 가정하고 같은 분산을 가진다고 가정.
    • unequal variance: 다른 그룹에서 나온거 같아서 다른 분산을 가진다고 가정.
  • equal sample size vs. unequal sample size

독립표본에 의한 두 모평균의 비교: 독립표본 t-검정

독립표본 평균차이 검정(independent two sample t-test)은 독립적인 두 모집단의 평균이 같은지 틀린지를 살펴보는 검정방법이다. 두 확률표본이 두 모집단으로부터 각기 독립적으로 관측되었다는 것이다. 이때 모집단은 각각 정규분포를 가정한다. 이때 각 집단의 표본크기가 작은 경우 모집단의 정규성 검정을 하는 것이 좋다. 정규성 가정을 만족시키지 못한다고 생각되는 자료는 독립표본 t검정을 시행하기보다는 비모수적 검정방법인 맨-휘트니의 두 표본 검정방법을 사용하는 것이 좋다.

검정통계량의 형태는 두 모집단의 분산을 모르기는 하지만 1) 같다고 가정할 수 있는 경우와 2) 같다고 가정할 수 없는 경우에 따라 다르게 표현한다. 또한 두 모집단의 분산이 같은지 틀린지에 따라 검정통계량의 형태가 달라지기 때문에 두 모분산에 대한 동질성(homogeneity of variance)을 먼저 검정해야 한다. 즉, 등분산검정을 시행한다.

t-test에 앞서 (a) 집단별 기술통계량을 살펴보고 (b) 분산에 대한 검정, 그리고 (c) 분산에 대한 검정 결과에 따라 t-test를 시행한다.

  • 모분산 $\sigma_1^2$과 $\sigma_2^2$이 알려진 경우

  • 모분산 $\sigma_1^2$과 $\sigma_2^2$을 모르는 경우

    • 표본크기가 충분히 클 때
    • $\sigma_1^2$ = $\sigma_2^2$ (= $\sigma^2$) : 두 모집단은 미지의 동일한 모분산을 갖는다는 조건
    • $\sigma_1^2$ ≠ $\sigma_2^2$

대응표본에 의한 두 모평균의 비교: 대응표본 t-검정

대응표본 t검정(paired samples t-test)는 실험 전후의 결과값 같이 연관성이 존재하는 두 표본에 대해서 실시하는 검정이다. 같은 그룹이 2번 응답한 경우 각각의 응답을 two-sample로 본다.

독립표본에 의한 두 모비율의 비교

쌍 관측에 의한 두 모비율의 비교 - 맥니머 검정

모분산의 동일성에 대한 검정

업데이트:

댓글남기기