Statistics: ch1. 데이터의 요약 및 표현

Statistics = state(국가) + ics (학문)

1. 자료의 형태

  • column: 변수(Variable), 속성(Attribute), 필드(Field)
  • row: 개체(Observation), 레코드(Record)

  • 오류값(Error) : 변수가 가질 수 없는 값, 변수값의 불가능한 조합, 일관성 없는 코드값, 잘못된 코드값
  • 특이값(Outlier) : 정상이 아닌 자료값, 특이값은 오류값일 수도 있고 그렇지 않을 수도 있다.
    • 특이값을 다루는 방법 (dataset에 따라 알맞는 방법 사용)
      • 전략1: 특이값 찾아서 없애기 (굉장히 신중히)
      • 전략2: 특이값 냅두고 robust한 분석방법 사용
        • non-parametric t-test
        • spearman correlations
        • permutation testing
        • robust weighted regression and iteratively reweighted regression
  • 결측값(Missing) : 알 수 없는 값. 원인과 기록방법을 정밀하게 조사하여 자료를 정정하고 기록방법을 변경해야 하며, 필요 시에는 자료를 보정해야 한다.
분류 형태 설명
수치형(numbers) 구간(등간)(Intrval) 상대영점 온도, 성적
수치형(numbers) 비율(Ratio) 절대영점 길이, 무게
수치형(numbers) 이산(Discrete) 정수형태의 수 인구
범주형(labels) 순서(Ordinal) sort 가능 성적등급
범주형(labels) 명목(Nominal) sort 불가능 혈액형, 직업, 지역

통계적 분석 방법

종속변수의 수 분석기법 독립변수 종속변수
1 개 t-test (평균차이검정) 명목 이산, 연속
1 개 ANOVA (분산분석) 명목 이산, 연속
1 개 회귀분석 명목, 이산, 연속 이산, 연속
1 개 로지스틱 회귀분석 명목, 이산, 연속 명목, 순서
1 개 판별분석 명목, 이산, 연속 명목, 순서
1 개 공분산분석 (ANCOVA) 명목, 이산, 연속 이산, 연속
1 개 반복측정분산분석 명목, 이산, 연속 이산, 연속
2 개 이상 MANOVA 명목 이산, 연속
분석기법 자료 (척도) 대안적 분석기법 자료(척도)
독립성검정 명목 Kolmogorov-Smirnov 검정 (단일, 독립 두 표본) 이산, 연속
상관관계분석 명목, 순서, 이산, 연속 Mann-Whitney 검정 순서, 이산, 연속
요인분석 이산, 연속 Kruskal-Wallis 검정 순서, 이산, 연속
군집분석 명목, 순서, 이산, 연속 Wilcoxon 검정 순서, 이산, 연속
다차원척도법(MDS) 순서, 구간 Friedman 검정 순서, 이산, 연속
신뢰성분석 이산, 연속 Kendall 검정 순서, 이산, 연속
비율(차이)검정 명목 RUN 검정 순서, 이산, 연속
적합도 검정 명목 - -

2. 모수와 통계량

  • 기술통계학(Descriptive Statistics)
  • 추측통계학(Inferential Statistics)
    • 모집단(Population) : 관심의 대상이 되는 전체집단
    • 모수(Parameter) : 모집단의 특성
    • 표본(Sample) : 모집단에서 추출된 일부
    • 통계량(Statistic; 추정량(Estimator), 추정치(Estimate)) : 표본으로부터 관측된 내용

3. 기술통계량

대표값 (중심경향, Measure of Centrality)

  • 평균(Mean; 일반적으로 산술평균)
  • 중앙값(Median; 중위수)
  • 최빈값(Mode)

산포도 (Measure of Dispersion)

  • 편차(Deviation)
  • 분산(Variance) : 편차(평균고의 차이)의 제곱합을 자유도 n-1로 나눈 것
  • 표준편차(Standard Deviation) : 분산에 제곱근을 취한 것
  • 변동계수(CV; Coefficient of Variation; 변이계수)

  • 표준화(Standardization) = Z-transformation
    • $Z=\frac{x-\bar{x}}{s}=\frac{\textrm{centering}}{\textrm{scaling}}$
      • 중심화(centering): 평균이 0이 되도록 함. 중심으로부터의 편차에 관심을 가짐
      • 척도화(scaling): 표준편차가 1이 되도로 함. 측정단위 자체를 없앰.
    • 관측치의 상대적 위치의 척도로 사용됨
    • 관측치간 상대적인 크기를 비교할 수 있음
    • 단위가 없는 순수한 수치
    • 관측치 전체 데이터 내에서의 위치를 나타내는 데 효율적으로 사용됨
  • 0-1 정규화 (normalization)

분위수 (Quantile)

  • 백분위수(Percentile)
  • 십분위수(Decile)
  • 사분위수(Quartile)
  • Box Plot

범위 (Range)와 사분위범위 (Inter Quantile Range)

  • 범위 : 최대값 - 최소값
  • 사분위범위 : 3사분위수 - 1사분위수

왜도 (Skewness) 와 첨도 (Kurtosis)

  • 왜도: 비대칭(asymmetry) 정도. 꼬리쪽 기준
    • 음수: left or negative skew
    • 0: 치우침 없음 (ex.정규분포)
    • 양수: right or positive skew
  • 첨도: 뾰족한(peakedness) 정도
    • 음수: flat
    • 0: 정규분포
    • 양수: steep

4. 그래프를 이용한 양적 데이터의 요약

  • 히스토그램(Histogram)
  • 줄기-잎 그림(Stem-and-Leaf plot)
  • 상자그림(Box Plot)
  • 다중상자그림(Multiple Box Plot)

5. 질적 데이터의 요약

  • 빈도표(Frequency Table)

6. 그래프를 이용한 질적 데이터의 요약

  • 막대도표(Bar Chart)
  • 원도표(Pie Chart)
  • 파레토 도표(Pareto Chart)
  • 모자이크 도표(Mosaic Chart)

업데이트:

댓글남기기