[머신러닝] 다중공선성(Multicollinearity)이란?

다중공선성

개요

  • 통계학의 회귀 분석에서 독립 변수들 간에 강한 상관 관계가 나타나는 문제이다.
  • 독립 변수들간에 정확한 선형 관계가 존재하는 완전공선성의 경우와 독립 변수들간에 높은 선형 관계가 존재하는 다중공선성으로 구분하기도 한다.
  • 회귀 분석의 전제 가정을 위배하는 것이므로 적절한 회귀 분석을 위해 해결해야 하는 문제이다.

진단법

  • 결정 계수 $R^2$값이 높아 회귀식의 설명력은 높지만 식안의 독립 변수의 P값(P-value)이 커서 개별 인자들이 유의하지 않는 경우가 있다.
  • 이런 경우 독립 변수들 간에 높은 상관 관계가 있다고 의심된다.
  • 독립 변수들간의 상관계수를 구한다.
  • 분산 팽창 요인(Variance Inflation Factor,VIF)을 구하여 이 값이 10을 넘는다면 보통 다중공선성의 문제가 있다.

해결법

  • 상관 관계가 높은 독립 변수중 하나 혹은 일부를 제거한다.
  • 변수를 변형시키거나 새로운 관측치를 이용한다.
  • 자료를 수집하는 현장의 상황을 보아 상관 관계의 이유를 파악하여 해결한다.
  • 주성분 분석(PCA,Principle Component Analysis)을 이용한 대각 행렬(diagonal matrix)의 형태로 공선성을 없애준다.
0%