Statistics: ch1. 데이터의 요약 및 표현
Statistics = state(국가) + ics (학문)
1. 자료의 형태
- column: 변수(Variable), 속성(Attribute), 필드(Field)
-
row: 개체(Observation), 레코드(Record)
- 오류값(Error) : 변수가 가질 수 없는 값, 변수값의 불가능한 조합, 일관성 없는 코드값, 잘못된 코드값
- 특이값(Outlier) : 정상이 아닌 자료값, 특이값은 오류값일 수도 있고 그렇지 않을 수도 있다.
- 특이값을 다루는 방법 (dataset에 따라 알맞는 방법 사용)
- 전략1: 특이값 찾아서 없애기 (굉장히 신중히)
- 전략2: 특이값 냅두고 robust한 분석방법 사용
- non-parametric t-test
- spearman correlations
- permutation testing
- robust weighted regression and iteratively reweighted regression
- 특이값을 다루는 방법 (dataset에 따라 알맞는 방법 사용)
- 결측값(Missing) : 알 수 없는 값. 원인과 기록방법을 정밀하게 조사하여 자료를 정정하고 기록방법을 변경해야 하며, 필요 시에는 자료를 보정해야 한다.
분류 | 형태 | 설명 | 예 |
---|---|---|---|
수치형(numbers) | 구간(등간)(Intrval) | 상대영점 | 온도, 성적 |
수치형(numbers) | 비율(Ratio) | 절대영점 | 길이, 무게 |
수치형(numbers) | 이산(Discrete) | 정수형태의 수 | 인구 |
범주형(labels) | 순서(Ordinal) | sort 가능 | 성적등급 |
범주형(labels) | 명목(Nominal) | sort 불가능 | 혈액형, 직업, 지역 |
통계적 분석 방법
종속변수의 수 | 분석기법 | 독립변수 | 종속변수 |
---|---|---|---|
1 개 | t-test (평균차이검정) | 명목 | 이산, 연속 |
1 개 | ANOVA (분산분석) | 명목 | 이산, 연속 |
1 개 | 회귀분석 | 명목, 이산, 연속 | 이산, 연속 |
1 개 | 로지스틱 회귀분석 | 명목, 이산, 연속 | 명목, 순서 |
1 개 | 판별분석 | 명목, 이산, 연속 | 명목, 순서 |
1 개 | 공분산분석 (ANCOVA) | 명목, 이산, 연속 | 이산, 연속 |
1 개 | 반복측정분산분석 | 명목, 이산, 연속 | 이산, 연속 |
2 개 이상 | MANOVA | 명목 | 이산, 연속 |
분석기법 | 자료 (척도) | 대안적 분석기법 | 자료(척도) |
---|---|---|---|
독립성검정 | 명목 | Kolmogorov-Smirnov 검정 (단일, 독립 두 표본) | 이산, 연속 |
상관관계분석 | 명목, 순서, 이산, 연속 | Mann-Whitney 검정 | 순서, 이산, 연속 |
요인분석 | 이산, 연속 | Kruskal-Wallis 검정 | 순서, 이산, 연속 |
군집분석 | 명목, 순서, 이산, 연속 | Wilcoxon 검정 | 순서, 이산, 연속 |
다차원척도법(MDS) | 순서, 구간 | Friedman 검정 | 순서, 이산, 연속 |
신뢰성분석 | 이산, 연속 | Kendall 검정 | 순서, 이산, 연속 |
비율(차이)검정 | 명목 | RUN 검정 | 순서, 이산, 연속 |
적합도 검정 | 명목 | - | - |
2. 모수와 통계량
- 기술통계학(Descriptive Statistics)
- 추측통계학(Inferential Statistics)
- 모집단(Population) : 관심의 대상이 되는 전체집단
- 모수(Parameter) : 모집단의 특성
- 표본(Sample) : 모집단에서 추출된 일부
- 통계량(Statistic; 추정량(Estimator), 추정치(Estimate)) : 표본으로부터 관측된 내용
3. 기술통계량
대표값 (중심경향, Measure of Centrality)
- 평균(Mean; 일반적으로 산술평균)
- 중앙값(Median; 중위수)
- 최빈값(Mode)
산포도 (Measure of Dispersion)
- 편차(Deviation)
- 분산(Variance) : 편차(평균고의 차이)의 제곱합을 자유도 n-1로 나눈 것
- 표준편차(Standard Deviation) : 분산에 제곱근을 취한 것
-
변동계수(CV; Coefficient of Variation; 변이계수)
- 표준화(Standardization) = Z-transformation
- $Z=\frac{x-\bar{x}}{s}=\frac{\textrm{centering}}{\textrm{scaling}}$
- 중심화(centering): 평균이 0이 되도록 함. 중심으로부터의 편차에 관심을 가짐
- 척도화(scaling): 표준편차가 1이 되도로 함. 측정단위 자체를 없앰.
- 관측치의 상대적 위치의 척도로 사용됨
- 관측치간 상대적인 크기를 비교할 수 있음
- 단위가 없는 순수한 수치
- 관측치 전체 데이터 내에서의 위치를 나타내는 데 효율적으로 사용됨
- $Z=\frac{x-\bar{x}}{s}=\frac{\textrm{centering}}{\textrm{scaling}}$
- 0-1 정규화 (normalization)
분위수 (Quantile)
- 백분위수(Percentile)
- 십분위수(Decile)
- 사분위수(Quartile)
- Box Plot
범위 (Range)와 사분위범위 (Inter Quantile Range)
- 범위 : 최대값 - 최소값
- 사분위범위 : 3사분위수 - 1사분위수
왜도 (Skewness) 와 첨도 (Kurtosis)
- 왜도: 비대칭(asymmetry) 정도. 꼬리쪽 기준
- 음수: left or negative skew
- 0: 치우침 없음 (ex.정규분포)
- 양수: right or positive skew
- 첨도: 뾰족한(peakedness) 정도
- 음수: flat
- 0: 정규분포
- 양수: steep
4. 그래프를 이용한 양적 데이터의 요약
- 히스토그램(Histogram)
- 줄기-잎 그림(Stem-and-Leaf plot)
- 상자그림(Box Plot)
- 다중상자그림(Multiple Box Plot)
5. 질적 데이터의 요약
- 빈도표(Frequency Table)
6. 그래프를 이용한 질적 데이터의 요약
- 막대도표(Bar Chart)
- 원도표(Pie Chart)
- 파레토 도표(Pareto Chart)
- 모자이크 도표(Mosaic Chart)
댓글남기기