[통계] 가설 검정 방법(T-검정, 카이 제곱 검정)

T-검정(T-test)

  • 이전 포스팅에서 알아보았던 T-검정은 그룹의 평균값에 대해서 비교하는 가설 검정 방법이었다.
  • T-검정이란 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준 편차를 이용하여 두 모집단의 평균 차이를 알아보는 검정 방법이다.
  • 집단의 수는 최대 2개 까지 비교가 가능하며 3개 이상인 경우 분산 분석(ANOVA)를 사용한다.
  • 하지만 T-검정을 사용하기 위해서는 몇 가지 조건이 가정되어야 한다.

T-검정의 조건

image

1. 독립성

  • 독립 변수의 그룹군은 서로 독립적이어야 한다.
    • 대응 표본일 경우 대응 표본 T-검정을 실행한다.

2. 등분산성

  • 독립 변수에 따른 종속 변수 분포의 분산은 유사한 값을 가진다.
    • 분산이 서로 다를 경우 자유도를 수정한 독립 표본 T-검정을 실행한다.

등분산성 테스트

1
2
sample2 = np.random.normal(size = 1000) # normal 분포
normaltest(sample2)

3. 정규성

  • 독립 변수에 따른 종속 변수는 정규 분포를 만족해야한다.
    • 정규 분포가 아닐 경우 Mann-Whitney test를 실행한다.

Type of Error

스크린샷 2021-08-09 18 19 22

  • 술을 안마셨는데 음주탐지기 반응이 나왔을 경우: 제 1종 오류(FP)
  • 술을 마셨는데 음주탐지기 미반응이 나왔을 경우: 제 2종 오류(FN)
    • 참고로 음주 탐지기의 경우 제 2종 오류를 줄이는 것이 중요하다. => Recall을 우선해야 한다.

비모수 통계(Non-Parametric Methods)

  • 수집된 자료가 정규 분포하지 않은 경우에 사용된다.
    • 모집단의 확률 분포가 정규 분포를 따르지 않는 경우
    • 표본 수가 작아 모집단의 정규 분포를 가정하기 어려운 경우
    • 측정한 자료의 수준이 명목형인 경우
  • 모집단이 특정 확률 분포를 따른다는 전제를 하지 않는 방식이다.
  • 모수 추정치(Parameter estimation)가 필요하지 않기 때문에 비모수(Non-Parametric)라고 부른다.
      • 연속성이 없는 데이터(Categorical Data)
      • 극단적 outlier가 있는 데이터

비모수적 평균 비교법(Kruskal-Wallis Test)

1
2
3
4
5
6
7
# Kruskal-Wallis H-test: 2개 이상 그룹의 중위 랭크를 통한 차이 비교(extended X2)
# 샘플 수가 > 5 일 때 좋다.
from scipy.stats import kruskal

x1 = [1, 3, 4, 8, 9]
y1 = [1, 4, 6, 7, 7]
kruskal(x1, y1) # 약간은 다르지만, 유의한 차이는 아니다.

1
2
3
4
x2 = [12, 15, 18]
y2 = [24, 25, 26]
z = [40, 40]  # 3번째 그룹은 사이즈가 다름
kruskal(x2, y2, z)

$\chi^2$ 검정(Test)

image

  • 카이 제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른 지의 여부를 검정하기 위해 사용되는 검정 방법이다.

1 샘플 $\chi^2$ 검정

  • 주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지에 대한 가설 검정이다.

$\chi^2$ 통계치의 계산식

\[\chi^2$ = $\sum$ $\frac{(observed_i-expected_i)^2}{(expected_i)}\]

image

자유도(Degrees of Freedom)

\[1 sample = value -1\] \[2 sample = (row - 1) * (column - 1)\]
0%