본문 바로가기
eBiz전략마케팅

Chi-Square Test

by 누피짱 2008. 11. 10.

카이스퀘어는 정확하게 이야기하면, 이 맥락에서는 피어슨의 카이스퀘어 테스트(Pearson's chi-square test)를 말하는 것입니다. 두 변수, 정확하게는 두 불연속변수간의 상관관계를 측정하는 것이 목적이지요.


위의 표를 예로 들자면, 영가설은 "두 변수가 상관관계가 없다"가 되겠습니다. 만약 그것이 사실이라면, 각 셀속의 숫자들은 정확하게 다 "같은 패턴"을 띠어야 할 것입니다. 즉, 각 초, 중, 고, 대 의 열들은 정확하게 똑같이 593:772로 나뉘어져야 할 것이고, 중요/중요하지 않다 의 두 행도 둘 다 정확하게 똑같이 123:223:656:363 으로 나뉘어져야 할 것입니다. 즉 영가설이 맞고, 두 변수가 전혀 상관관계가 없으면 다음의 표를 우리는 얻어야 할 것입니다.


초등졸 중졸 고졸 대졸
중요하다 53.435 96.878 284.988 157.699 593
중요치않다 69.565 126.122 371.012 205.301 772
123 223 656 363 1365


이것을 우리는 "예측빈도" 혹은 "기대빈도"라 부를 수 있겠습니다. 예를 들어 첫번째 셀인 초등/중요하다의 예측치는 E = (593/1365)*(123/1365)*1365 = 53.435


카이스퀘어는 우리가 관측한 데이터가 얼마나 이 예측빈도표에서 벗어나는가를 측정한 수치입니다.


구하는 공식은 다음과 같이 쓸 수 있겠습니다.

\chi^2 = \sum {(O - E)^2 \over E}

O: 관찰된 빈도

E: 이론, 혹은 영가설에 의한 기대빈도


그렇다면 첫번째 셀에서 우리는 (72 - 53.435)2/53.435 = 6.45 를 얻습니다. 이렇게 여덟개 셀을 쭉 다 더한 것이 카이스퀘어 값이 되겠습니다. (직접 하시는 것보다는 엑셀에서 하시는 것이 빠를 거예요)


각 셀의 더하기 전 카이 값들은 다음과 같구요.


초등졸 중졸 고졸 대졸
중요하다 6.450 12.733 1.265 7.635 593
중요치않다 4.954 9.780 0.972 5.865 772
123 223 656 363 1365


여덟개를 다 더하면 49.65 라는 카이값이 나옵니다. 이것이 얼마나 영가설과 먼가하는 것은 영가설의 카이값인 0 에서 얼마나 통계적으로 먼가 하는 것을 테스트하는 것입니다.


여기서, 자유도를 생각해야 하는데, 두 변수가 각각 4개와 2개의 항목들을 가지고 있습니다. 우리가 "계"라는 항목을 이미 사용했기 때문에, 자유도는 각 변수당 하나씩 줄어든다고 생각할 수 있겠습니다. (이곳에서 이야기가 약간 복잡해지지만, 카이테스트의 자유도는 이곳을 참조하시구요.) 따라서, 우리가 구한 카이자승값은 자유도 (4-1)*(2-1)=3 의 카이자승분포를 따른다고 말할 수 있겠습니다.


카이자승분포표는 보통 아무 교과서 뒤편에 붙어 있는데, 문제에서 묻는 5% 수준의 자유도 3의 카이자승값은 12.8입니다. 이것보다 우리가 구한 카이자승값인 49.65가 훨씬 크므로, 영가설을 쉽사리 기각할 수 있겠습니다.

댓글