Statistics: ch2. 확률변수와 분포함수

통계적 조사에서 조사대상의 일부만을 관측하고도 조사대상 전체에 대한 결론을 이끌어 내는 데에 논리적 근거가 되는 것은 확률의 개념이다. 통계학에서 확률론(Probability Theory)이 여기서 활용된다.

1. 표본공간과 사건

  • 표본공간(Sample Space): 통계적 실험이나 조사에서 가능한 모든 실험결과(outcome)의 집합
    • 보통 S로 표현
  • 사건 or 사상 (event): 표본공간 S의 임의의 부분집합
    • 보통 A, B, C 등의 대문자로 표현
    • 근원사건(elementary event) = 단순사건(simple event): 한 개의 원소로 이루어진 사건
      • 사건 A의 한 원소를 관측하면 사건 A가 일어났다고 한다.
    • 합사건(union event), 곱사건(product event), 여사건(complementary event), 배반사건(disjoint events)

2. 확률

확률의 정의

  • 고전적 정의: P.Laplace(1749~1827)가 정의
    • 예를 들어 “4개에서 2개를 뽑는다”라는 표현에는 “뽑힐 가능성을 같게 하여”라는 뜻이 함축적으로 포함된 것으로 간주한다. 이러한 의미를 명확히 하기 위해 “랜덤하게 추출한다”라는 표현을 사용한다.
    • 표본공간에서 근원사건의 개수가 유한개이며, 각 근원사건이 일어날 가능성이 같은 경우에 대하여 확률을 정의하였다. 그러나 실제 문제에서는 이와 같은 고전적 정의에 의한 확률만으로는 설명되지 않는 현상이 많다. 예를 들어, 특정한 치료법에 의해 질병이 치료될 확률을 구하는 경우에는 전체조사의 결과의 개수가 유한이 아니며, 각 근원사건이 일어날 가능성도 같지 않다. 따라서 좀 더 일반화된 확률의 정의를 필요로 한다.
  • 공리적 정의: A.N.Kolmogorov가 정의
    • 통계적 실험을 반복적으로 행하면, 한 사상이 발생하는 것은 일정한 법칙을 따른다는 것을 경험을 통하여 알 수 있다. 특히, 한 사건의 상대도수는 흔히 일정한 상수로 가까이 가는 것을 경험적으로 알 수 있다. 이러한 경우에 우리는 ‘통계적 규칙성이 있다’고 한다.
    • 상대도수의 극한적 개념으로 확률을 정의함으로써 상대도수가 가지는 기본적 성질을 확률이 갖도록 요구하는 것은 당연하다고 할 수 있다.
    • 이러한 확률의 정의는 고전적 정의를 특수한 경우로 포함한 일반적인 정의임을 알 수 있다. 즉, $N$개의 실현결과로 구성된 표본공간에서 각각의 실현결과가 같은 정도로 가능하다면, (b), (c)로부터 각각의 실현결과의 확률은 $1/N$이고, $m$개의 원소로 구성된 사건의 확률은 (c)로부터 $m/N$이 되어 고전적 정의에 의한 확률과 같아진다.

확률에 관한 성질

조건부 확률

  • 비복원추출(sampling without replacement), 복원추출(sampling with replacement), 분할(partition)
  • 전확률공식
  • 베이즈 정리
    • 사전확률 (prior probability): 사건 $A_1$, …, $A_n$을 $n$가지의 ‘원인’이라고 한다면 사전확률은 ‘원인’의 가능성이라 할 수 있다.
    • 사후확률 (posterior probability): $P(A_k B)$는 B가 관측된 후에 ‘원인’ $A_k$의 가능성이라 할 수 있다.
    • 베이즈정리가 뜻하는 것은 관측 전의 원인에 대한 가능성과 관측 후의 원인의 가능성 사이의 관계라고 할 수 있다.

독립사건(independent events), 종속사건(dependent events)

3. 확률변수와 확률분포

  • 확률변수(Random Variable) : 표본공간 S에서 정의된 실수값 함수
  • 확률분포(Probability Distribution) : 확률변수 X와 확률을 대응시켜 주는 관계
    • 확률분포표
    • 확률분포도
    • 확률밀도함수
  • 확률분포함수(Probability Distribution Function)
  • 이산확률변수(Discrete Random variable)
  • 확률질량함수(Probability Mass function)
  • 연속확률변수(Continuous Random variable)
  • 확률밀도함수(Probability Density Function)

4. 기대값과 분산

  • 기대값(Expected value) : 확률변수 X에 대해 확률을 가중치로 하여 계산된 가중평균
  • 분산(Variance)
  • 기대값의 성질
  • 분산의 성질

5. 이산형 확률분포

초기하분포(Hyper Geometric Distribution)

  • 유한모집단에서의 단순랜덤추출법 or 단순임의추출법 (simple random sampling): 크기가 N인 유한모집단에서 크기 n의 표본을 비복원으로 뽑는 법(조합)으로 구한 경우의 수가 모두 동일한 확률로 뽑힐 수 있도록 표본을 추출하는 방법
  • 크기 N인 유한모집단에서 M개가 특별한 속성 A를 갖고 있고, 나머지 N-M개는 속성 A를 갖고 있지 않다고 가정하자. 이러한 모집단에서 크기 n의 표본을 단순랜덤추출할 때, 추출된 표본에서 속성 A를 갖고 있는 것의 개수를 X의 확률분포를 초기하분포라 부른다.

베르누이분포(Bernoulli Distribution)

  • 베르누이 시행(Bernoulli trial): 어느 실험이 오직 두 가지 가능한 결과만을 가질 때의 시행
  • 베르누이 확률변수: 베르누이시행의 표본공간 {success, fail}에서 Y(success)=1, Y(fail)=0인 확률변수를 베르누이확률변수라 한다.

이항분포(Binomial Distribution)

  • 성공률이 p인 베르누이시행이 n번 독립적으로 반복시행되었을 때, 확률변수 X를 “성공횟수”라고 하자. 이 때 X의 확률분포를 시행횟수 n과 성공률 p를 갖는 이항분포라 한다.

포아송분포(Poisson Distribution)

  • 포아송분포는 단위시간이나 단위공간에서 희귀하게 일어나는 사건(rare event)의 ‘횟수’ 등에 유용하게 사용될 수 있다.
  • ex) 단위시간 내의 전화신청 횟수, 단위길이의 철선의 결함수, 어느 지역에서의 1일 교통사고 사망자수 등
  • 포아송분포는 이항분포의 근사분포로서 정의할 수도 있다.

6. 연속형 확률분포

정규분포(Normal Distribution)

  • 다른 말로 ‘가우스분포(Gauss distribution)’

표준정규분포(Standard Normal Distribution)

  • 평균이 0이고 표준편차가 1인 정규분포

다른 분포

  • 지수분포
  • 와이블분포
  • 베타분포
  • 감마분포

7. 표본분포

확률표본

  • 확률표본(random sample): 서로 독립이고 동일한 모집단 분포를 따르는 여러개의 확률변수들. 아직 관측전!
    • 확률표본은 특정한 확률변수들의 집합
    • 확률변수임을 명확히 하기 위해 대문자 사용 ($X_1$, $X_2$, …)
  • 표본(sample): 확률표본이 실제값으로 관측된게 표본이다. 이제 관측 후!
    • 실현(realization) 혹은 표본화(sampling): 표본공간의 표본이 현실 세계의 데이터로 선택되는 것을 라고 한다. 표본화는 문맥에 따라 다른 의미로도 사용되는데 많은 수의 데이터 집합에서 일부 데이터만 선택하는 과정도 표본화라고 한다.
    • 소문자를 사용한다. ($x_1$, $x_2$, …)
  • 통계량(statistics): 관측 가능한 확률표본의 함수. 통계량은 모집단의 어떤 특성에 관심있는가에 따라 여러 가지를 생각할 수 있다.
    • 통계량의 정의에 따라 통계량은 확률변수임을 알 수 있다.
    • 통계량은 확률변수이므로 그 분포를 갖게 된다.

표본분포

  • 표본분포 (sample distribution): 통계량이 확률분포를 갖게 될 때, 통계량의 확률분포를 표본분포라고 한다.

표본평균의 분포

  • 중심극한정리(Central Limit Theorem; CLT)
  • 모분포의 분포모양과 무관하게 ‘표본평균’의 분포는 표본의 크기가 커질수록 정규분포를 따른다.

    이항분포의 정규근사

  • 연속성 수정(Continuity Correction): 정규근사의 핵심. 이산형분포를 연속형 분포로 변환시 최소단위의 절반을 포함시켜주어야 한다.

정규모집단에서의 표본분포

여러 가지 통계적 추론에서 다양하게 사용되는 정규모집단에서의 몇 가지 중요한 표본분포들이 있다.

t-분포(Student’s t-Distribution):

카이제곱분포(Chi-square Distribution)

F-분포(F-Distribution)

Monte Carlo sampling

Monte carlo(=Money Carlo) methods(simulation)는 여러 종류의 sampling 기법들을 포괄적으로 표현하는 용어이다. 이를 응용한 방법 중 하나가 Markov Chain Monte Carlo (MCMC) sampling기법이다. Monte Carlo sampling은 시행 횟수가 늘어남에 따라 통계적 확률은 수학적 확률에 한없이 가까워진다라는 사실을 활용한 것이다. 이를 통해 수학 공식을 적용하지 않고도 확률을 계산할 수 있다. 모집단에서 데이터를 무작위로 sampling해서 미지의 모수나 함수를 추정 혹은 근사하는 방법이다.

업데이트:

댓글남기기