T-검정(T-test)
- 이전 포스팅에서 알아보았던 T-검정은 그룹의 평균값에 대해서 비교하는 가설 검정 방법이었다.
- T-검정이란 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준 편차를 이용하여 두 모집단의 평균 차이를 알아보는 검정 방법이다.
- 집단의 수는 최대 2개 까지 비교가 가능하며 3개 이상인 경우 분산 분석(ANOVA)를 사용한다.
- 하지만 T-검정을 사용하기 위해서는 몇 가지 조건이 가정되어야 한다.
T-검정의 조건
1. 독립성
- 독립 변수의 그룹군은 서로 독립적이어야 한다.
- 대응 표본일 경우 대응 표본 T-검정을 실행한다.
2. 등분산성
- 독립 변수에 따른 종속 변수 분포의 분산은 유사한 값을 가진다.
- 분산이 서로 다를 경우 자유도를 수정한 독립 표본 T-검정을 실행한다.
등분산성 테스트
1 |
|
3. 정규성
- 독립 변수에 따른 종속 변수는 정규 분포를 만족해야한다.
- 정규 분포가 아닐 경우 Mann-Whitney test를 실행한다.
Type of Error
- 술을 안마셨는데 음주탐지기 반응이 나왔을 경우: 제 1종 오류(FP)
- 술을 마셨는데 음주탐지기 미반응이 나왔을 경우: 제 2종 오류(FN)
- 참고로 음주 탐지기의 경우 제 2종 오류를 줄이는 것이 중요하다. => Recall을 우선해야 한다.
비모수 통계(Non-Parametric Methods)
- 수집된 자료가 정규 분포하지 않은 경우에 사용된다.
- 모집단의 확률 분포가 정규 분포를 따르지 않는 경우
- 표본 수가 작아 모집단의 정규 분포를 가정하기 어려운 경우
- 측정한 자료의 수준이 명목형인 경우
- 모집단이 특정 확률 분포를 따른다는 전제를 하지 않는 방식이다.
- 모수 추정치(Parameter estimation)가 필요하지 않기 때문에 비모수(Non-Parametric)라고 부른다.
- 예
- 연속성이 없는 데이터(Categorical Data)
- 극단적 outlier가 있는 데이터
- 예
비모수적 평균 비교법(Kruskal-Wallis Test)
1 |
|
1 |
|
$\chi^2$ 검정(Test)
- 카이 제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른 지의 여부를 검정하기 위해 사용되는 검정 방법이다.
1 샘플 $\chi^2$ 검정
- 주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지에 대한 가설 검정이다.
$\chi^2$ 통계치의 계산식
\[\chi^2$ = $\sum$ $\frac{(observed_i-expected_i)^2}{(expected_i)}\]- 각 차이의 값을 제곱하는 것으로, 모든 값을 양수로 만들고 관측과 예측값의 차이를 더 강조하는 효과가 있다.
- 카이 제곱 테스트 방법 포스팅 바로가기
자유도(Degrees of Freedom)
\[1 sample = value -1\] \[2 sample = (row - 1) * (column - 1)\]-
얼마나 다양한 축으로 움직일 수 있는 지를 말하며, 주어진 조건 안에서 통계적인 추정을 할 때 표본이 되는 자료 중 모집잔에 대해 정보를 주는 독립적인 자료의 수를 말한다.
- 이론 및 T검정
- T-검정(T-test)
- 우리는 이미 일상 생활에 머신러닝의 개념을 적용하고 있었다…
- 2 모수검정vs비모수검정
- 자유도(degree of freedom)