Statistics: ch3. 통계적 추정과 검정

1. 통계적 추정

통계처리의 중요한 목적 중 하나는 통계량을 근거로 해서 모집단의 특성을 파악하는 것이다. 즉, 표본평균, 표본분산, 표본비율과 같은 통계량을 통해 이에 대응되는 모평균, 모분산, 모비율과 같은 모수들에 대한 통계적 추론을 하는 것이다.

모집단과 표본

  • 모집단(Population): 관심의 대상이 되는 전체집단
  • 모수(Parameter): 모집단의 특성을 나타내는 미지의 ‘상수’값. 확률분포를 표현하는 값.
  • 표본(Sample): 모집단에서 추출되서 실제 관측된 값들의 집합. 일반적으로 확률표본(무작위 추출)
  • 통계량(Statistic; 추정량(Estimator), 추정치(Estimate)) : 표본으로부터 관측된 내용
    • 추정량(Estimator): 미지의 모수를 추정하기 위해 사용되는 통계량. 알파벳. ($\bar{X}$)
    • 추정치(Estimate): 추정량이 관측되어 얻어진 값. 실제 숫자값

단순임의추출에서 주요 모수에 대한 불편추정량

하나의 모수에 대해 단 하나의 추정량만 존재하는 것은 아니다. 예를 들어 모평균에 대한 추정량으로 표본평균만 있는 것이 아니라 중앙값, 최빈값 등이 있다. 이러한 추정량 중 어떤 추정량이 모수에 대한 좋은 추정량인지 판단해야 한다. 이를 판단하는 기준으로 아래 4가지 기준이 있다. 덧붙여 분명한 사실은 표본에서 얻은 통계량 또는 추정량은 표본을 추출할 때마다 변하게 되므로 확률변수라는 것이다. 아래 4 가지 성격은 모수에 대한 추정량으로서 우리가 바라는 성격일 뿐 필수불가결한 성격은 아니다. 하지만 이러한 성격이 충족될수록 좋은 추정량이라고 판단할 수 있다.

  • 불편성(Unbiasedness)
  • 일치성(Consistency)
  • 효율성(Efficiency): 최소분산
  • 충분성(Sufficiency)

점추정과 구간추정

  • 통계적 추정(Statistical Estimation)
  • 점추정(Point Estimation): 하나의 값으로 모수를 추정하는 것
  • 구간추정(Interval Estimation): 일정한 신뢰수준 하에서 모수가 포함되어 있으리라고 기대되는 적절한 구간을 설정하여 모수를 추정하는 것
    • 신뢰구간(confidence interval)
    • 신뢰구간 = 추정값 +- 표본오차(신뢰계수 * 표준오차) = $\bar{x}\pm t(k)\frac{s}{\sqrt{n}}$
      • 표본오차(standard error): 자료 전체가 아닌 일부의 표본을 뽑아 조사함에 따라 발생하는 오차로서 표본조사의 정확성을 나타내는 척도이다.
        • 표본오차는 추출방법에 따라 여러 가지 형식으로 나타날 수 있지만 보통 표본의 크기에 반비례한다. 따라서 표본의 크기가 증가하면 표본오차가 작아져 좀 더 정확한 추정값을 구할 수 있다. 다만, 비표본오차가 존재하므로 표본의 크기가 크다고 반드시 좋은 것만은 아니다. 표본오차는 신뢰계수가 있어야 계산 가능하고 단위에 따라 판단이 어려운 측면이 있어 상대표준오차를 병행 사용한다.
      • 비표본오차: 보통 면접방법이나 질문지 구성방식의 오류, 조사원의 자질, 조사표의 작성 또는 집계, 분석단계 등 조사의 전체 과정에서 발생할 수 있는 오차.
      • 표준오차(standard error) $\frac{s}{\sqrt{n}}$: 흩어짐의 정도를 나타내는 측도로서, 흔히 추정량의 표준편차를 사용하는데 이를 추정량의 표준오차라고 한다.
  • 오차한계(Margin of Error): 모집단의 참값과 표본에서 산출되는 통계량과의 차에 관한 일정한 경계값. 즉 모수 추정치의 표본오차
  • 신뢰수준(Confidence level): 가능한 모든 표본들 중에서 그 한계를 만족시키는 표본들의 비율. 100$\times$(1 - 유의수준)%
    • 신뢰수준 95%의 의미는 100번 중 95번은 신뢰구간이 모수를 포함하고 있다는 것이고 이는 95번은 올바른 구간추정이 된다는 의미이다. 다시 말해 구간추정은 실제로 한번 추출된 크기 n의 표본만 가지고 추정하므로 구해진 구간은 모수를 포함하고 있거나 또는 포함하고 있지 않거나 둘 중 하나이다.
  • 오차한계와 신뢰수준의 관계
    • 신뢰수준을 크게하면 오차한계는 커진다.
    • 동일한 신뢰수준에서 오차한계를 줄이는 방법: 포본크기를 크게 하거나, 보다 정밀한 방법을 사용한다.

모평균에 대한 추정

모비율에 대한 추정

모분산과 모표준편차에 대한 추정

표본크기의 결정

2. 통계적 가설검정

표본으로부터 주어지는 정보를 이용하여, 모수에 대한 예상, 주장 또는 단순한 추측 등의 옳고 그름을 판정하는 과정을 통계적 가설검정(statistical hypothesis thesting) 또는 간단히 검정(testing)이라 한다. 추정한걸 검정해야지 비로소 추론이 완성된다.

가설(hypothesis)

  • 정의: a falsifiable claim that requires verification, typically from experimental or observational data, and that allows for predictions about future observations.
  • 가설이 중요한 이유
    • Hypotheses improve experiment design, critical thinking, and data analyses.
    • Hypotheses transform loose ideas into concrete and specific claims.
    • Hypotheses are used to develop new and more accurate theories, and to dissolve bad theories.
    • Most progress in science, engineering, and medicine is the result of hypothesis-testing
  • strong hypothesis를 만드는 특징들
    • clear
    • specific
    • falsifiable
    • based on prior data or theory
    • leads to a statistical test
    • a statement, not a question
    • a prediction about the direction of an effect
    • relevant for unobserved data or phenomena
    • relevant for understanding nature

귀무가설과 대립가설

  • 귀무가설(null hypothesis): 데이터에서 나타나도 전혀 흥미롭지 않은 가설
  • 대립가설(alternative hypothesis): effect hypothesis라고 부르는게 좋다.
    • 대립가설의 형태에 따라 단측검정이냐 양측검정이냐가 결정

모든 추론 통계는 기본적으로 특정 유형의 데이터 및 가정 유형, 귀무 가설을 생성하는 다양한 방법, 분포 등에 채택되는 signal to noise ratio이다.

image 귀무가설 분포와 대립가설 분포의 차이를 이해하거나 정량화하려면 정규화된(normalized) 방법이 필요하다. 이 방법은 이러한 분포의 중심(centers) 차이를 정량화하는 것이다. (= the means of these two distributions) 이때 문제가 2가지 있다.

  1. 이 차이는 scale dependent하다. 길이의 경우 meter, centimeter, milimeter 등이 될 수 있다.
  2. 이러한 분포의 너비(the width of these distributions)가 상당히 중요하다는 것이다.

따라서 이러한 문제로 분포 너비의 일부 기능에 의해 조정(scaled)되거나 정규화(normalized)된 중심의 차이(difference of centers)가 필요하다.

검정통계량과 기각역

  • 검정통계량(test statistic) : 귀무가설과 대립가설 중 어느 하나를 채택하는 데 기준이 되는 통계량. ‘통계적으로 비교분석한다’라고 할 때 사용하는 값을 통칭. 통계적 가설의 진위여부를 검정하기 위해 ‘표본으로부터 계산’하는 통계량. 표본통계량을 2차 가공한 것 (표본통계량을 곱하고 더한 것)
  • 임계값(critical value): 귀무가설을 채택할 것인지 기각할 것인지를 판정하는 기준이 되는 값. 임계값은 유의 수준 $\alpha$, 표본크기 n, 그리고 검정통계량의 분포에 의해 결정된다.
  • 기각역(rejection region, critical region): 귀무가설을 기각하여 대립가설을 채택하는 검정통계량의 영역. 임계값이 결정되면 만들어지는 영역

제1종 오류와 제2종 오류

  • 제 1종오류 : 귀무가설이 사실일 때 귀무가설을 기각하는 오류
  • 제 2종오류 : 대립가설이 사실일 때 귀무가설을 채택하는 오류
  • 유의수준($\alpha$, significance level) : 제1종 오류를 범할 확률의 최대허용한계. 즉, 유의수준이 $\alpha$인 검정법이란 제 1종오류를 범할 확률이 $\alpha$ 이하인 검정법을 뜻한다.
  • 검정력(power): 1-$\beta$

image

양측검정과 단측검정

  • 양측검정(two-sided test)
  • 단측검정(one-sided test)

가설검정순서

  1. 귀무가설과 대립가설(연구가설) 설정
  2. 유의수준과 임계값 결정
  3. 귀무가설의 채탱영역과 기각영역 결정
  4. 검정통계량의 계산
  5. 검정통계량 값과 임계값의 비교를 통해 결론

구간추정과 가설검정 관계

구간추정과 가설검정은 서로 보는 관점이 다를 뿐이지 별개의 것이 아니다.

  • 구간추정은 내부(신뢰구간)에 관심. 모수가 있음직한 신뢰구간을 구하는 것
  • 가설검정은 외부(기각영역)에 관심. 귀무가설의 모수가 없음직한 기각역을 설정

유의확률 (p-value)

  • 통계적 유의성 검정(statistical significance testing)은 처리효과가 우연에 의한 것인지 통계적으로 유의한 것인지를 결정하는 것
  • significance probability

모수적 검정에서 귀무가설의 분포($H_O$ distribution)는 공식(방정식)에 의해서 만들 수 있다. 하지만 대립가설의 분포는 우리가 알 수가 없다. 분포 대신 대립가설 통계량 값 하나($H_A$ value)로 검정한다. image 이때 관찰된 효과($H_A$ value)가 우연히 발생하였다고 말할 수 없을 정도로 충분히 클 때 그 효과는 통계적으로 유의하다고 말한다. 이때 중요한 점은 우리는 $H_A$가 참인지는 증명할 수 없다. 단지 우리가 할 수 있는건 효과가 없다고 가정했을 때 (=귀무가설이 참이라고 가정했을 때) $H_A$와 관련된 검정통계량이 관찰될 확률을 계산할뿐이다.

모수적 검정과 비모수적 검정

비모수적(non-parametric)이라는 말은 가우시안 분포처럼 어떤 특정 분포를 가정하지 않았다는 뜻이다. 추론할 때도 공식(equation)을 사용해서 귀무가설 분포를 만들지 않고 데이터를 통해서 만든다. 비모수적 검정에 대해서는 chapter 8에서 자세히 다룰 예정이다.

모수적 검정 (parametric test) 비모수적 검정 (nonparametric test)
one-sample t-test Wilcoxon sign-rank test
two-sample t-test Mann-Whitney U test
Pearson correlation Spearman correlation
ANOVA Kruskal-Wallis test
- permutation testing

image

Multiple comparisons and Bonferroni correction

업데이트:

댓글남기기