Statistics: ch7. 상관분석

두 개의 수치형 변수 간의 선형적인 연관성을 분석하는 방법이다. t-test는 평균차이만 보기 때문에 분산은 신경안쓴다. 그래서 개인차를 무시하는 방법이다.

1. 상관계수의 개념

  • 공분산(Covariance): 편차의 곱의 기대값
    • 공분산은 측정단위의 변화에 영향을 받는다.
  • 표준화(standardization) = 중심화/척도화
    • 중심화(centering): 평균이 0이 되도록 함. 중심으로부터의 편차에 관심을 가짐.
    • 척도화(scaling): 표준편차가 1이 되도록 함. 측정단위 자체를 없앰.
  • 상관계수(Pearson’s Correlation Coefficient)
    • 표준화된 두 변수의 공분산
    • 공분산을 두 변수의 표준편차의 곱으로 나눈 것
    • 두 변수가 가지는 변이에 비하여 공유하는 변이의 양이 어느 정도인지를 나타냄
  • 상관계수의 부호와 크기
    • 상관계수의 부호는 증감의 방향성을 나타낸다.
    • 상관계수의 절대값의 크기는 직선의 주변에 자료가 어느정도 집중되어 있는지를 나타낸다.
    • 정도만 나타내는거지 수치의 배수적인 관계는 없다. 상관계수 2배하고 그러면 안된다.
  • 상관계수 해석의 제약성: 선형성(Linearity)
    • 상관계수는 두 변수의 ‘선형집중성’만을 재는 측도로서 비선형 연관관계를 반영하지는 못함
    • 산점도(scatter plot)은 이러한 관계를 직관적으로 판단하기에 좋은 그림이다..

2. 상관계수의 추정과 검정

피어슨(Pearson)의 상관계수

  • 모수적 방법
  • 적률상관계수(product-moment correlation coefficient) = 모수적 상관계수
  • 대표본이거나 각 변수의 모집단 분포가 정규분포에 가깝다고 판단되는 경우에 사용
  • t분포를 이용해 검정

스피어만(Spearman)의 순위상관계수

  • 비모수적 방법
  • outlier에 robust하다.
  • 소표본이면서 정규성 가정을 하기가 어려운 경우, 특히 모집단의 분포가 대칭분포가 아니거나 대칭분포이지만 꼬리가 두터운 분포(상대적으로 아주 큰값이나 작은 값이 1% 이상 존재하는 경우)인 경우에 피어슨 상관계수 대신에 스피어만 순위상관계수를 사용
  • 순위상관계수는 피어슨 상관계수와 계산식의 형태는 동일하지만 자료의 실제 값 대신에 순위(rank)를 이용해 상관계수를 계산한다.
  • p-value는 피어슨 상관계수와 같이 구한다.

켄달의 타우(Kendall’s tau)

  • 스피어만 상관계수와 같이 비모수적 방법
  • ordinal 데이터 타입에 사용한다. (e.g, 교육수준, 영화평점)
  • 해석은 피어슨과 스피어만과 같다.
  • $\tau=K^{-1}\sum \textrm{sgn}(\tilde{x}i-\tilde{x}{i:})\textrm{sgn}(\tilde{y}i-\tilde{y}{i:})$
    • $\tilde{x}_i$: $x$의 rank값
    • $\tilde{x}_{i:}$: ‘:’라는 python notation을 그대로 씀
    • $K^{-1}$: normalization factor (kendall tau-b version)

3. 편상관계수

의사 상관(Pseudo Correlation)

  • 실제적인 연관관계가 없음에도 불구하고 상관계수가 크게 나타나는 경우
  • 제 3의 변수에 의하여 상관관계가 나타나는 경우

편상관계수 (Partial correlation coefficient)

두 변수간의 관련성에 영향을 미치는 다른 변수를 통제하고 순수한 두 변수간의 상관관계

  • 두 변수에 영향을 미치는 제 3의 변수를 통제한다.
  • $\rho_{xy z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{(1-r^2{xz})}\sqrt{1-r^2{yz}}}$
    • 분자에서 $r_{xy}-r_{xz}r_{yz}$는 우리가 관심있는 상관계수에서 관심없는 상관계수를 뺀다.
    • nothing to partial out일때 어떤지! $z$가 아무런 상관관계가 없을때…즉, $r_{xy}=0,r_{yz}=0$이 될때.. 식을 자세히 보면 결국 $\rho_{xy z}=r_{xy}$가 된다.

4. 측정도구의 신뢰도분석

  • 크론바흐의 알파계수

5. Fisher-Z transformation for correlations

correlation coefficient는 -1과 1사이의 값만 가지는데, 분석방법에 따라 transformation이 필요할 수 있다. 그 때 필요한게 Fisher-Z transformation이다.

\[z_r=\frac{1}{2}\ln(\frac{1+r}{1-r})=\textrm{arctanh}(r)\]

단순히 두 변수 사이의 관계를 선형적 상관성를 보기 위하여 correction를 계산했으면 fisher Z transformation을 고려할 필요 없다. The fisher Z-Transform은 주로 수 많은 변수별 여러 상관계수를 계산한 다음 이 상관계수값들을 가지고 가우시안 분포를 가정하는 t-test나 ANOVA 분석을 할때 중요하다.

6. Cosine similarity과 상관계수의 관계

correlation coefficient에서 $\bar{x}=\bar{y}=0$이면 cosine similarity가 된다. 즉, mean-centered되면(=zero mean) 된다. 추가로 linear algebra관점에서 보면 cosine similarity는 dot product를 각각의 norm으로 나눈거다.

업데이트:

댓글남기기