카이스퀘어는 정확하게 이야기하면, 이 맥락에서는 피어슨의 카이스퀘어 테스트(Pearson's chi-square test)를 말하는 것입니다. 두 변수, 정확하게는 두 불연속변수간의 상관관계를 측정하는 것이 목적이지요.
위의 표를 예로 들자면, 영가설은 "두 변수가 상관관계가 없다"가 되겠습니다. 만약 그것이 사실이라면, 각 셀속의 숫자들은 정확하게 다 "같은 패턴"을 띠어야 할 것입니다. 즉, 각 초, 중, 고, 대 의 열들은 정확하게 똑같이 593:772로 나뉘어져야 할 것이고, 중요/중요하지 않다 의 두 행도 둘 다 정확하게 똑같이 123:223:656:363 으로 나뉘어져야 할 것입니다. 즉 영가설이 맞고, 두 변수가 전혀 상관관계가 없으면 다음의 표를 우리는 얻어야 할 것입니다.
초등졸 | 중졸 | 고졸 | 대졸 | 계 | |
중요하다 | 53.435 | 96.878 | 284.988 | 157.699 | 593 |
중요치않다 | 69.565 | 126.122 | 371.012 | 205.301 | 772 |
계 | 123 | 223 | 656 | 363 | 1365 |
이것을 우리는 "예측빈도" 혹은 "기대빈도"라 부를 수 있겠습니다. 예를 들어 첫번째 셀인 초등/중요하다의 예측치는 E = (593/1365)*(123/1365)*1365 = 53.435
카이스퀘어는 우리가 관측한 데이터가 얼마나 이 예측빈도표에서 벗어나는가를 측정한 수치입니다.
구하는 공식은 다음과 같이 쓸 수 있겠습니다.
O: 관찰된 빈도
E: 이론, 혹은 영가설에 의한 기대빈도
그렇다면 첫번째 셀에서 우리는 (72 - 53.435)2/53.435 = 6.45 를 얻습니다. 이렇게 여덟개 셀을 쭉 다 더한 것이 카이스퀘어 값이 되겠습니다. (직접 하시는 것보다는 엑셀에서 하시는 것이 빠를 거예요)
각 셀의 더하기 전 카이 값들은 다음과 같구요.
초등졸 | 중졸 | 고졸 | 대졸 | 계 | |
중요하다 | 6.450 | 12.733 | 1.265 | 7.635 | 593 |
중요치않다 | 4.954 | 9.780 | 0.972 | 5.865 | 772 |
계 | 123 | 223 | 656 | 363 | 1365 |
여덟개를 다 더하면 49.65 라는 카이값이 나옵니다. 이것이 얼마나 영가설과 먼가하는 것은 영가설의 카이값인 0 에서 얼마나 통계적으로 먼가 하는 것을 테스트하는 것입니다.
여기서, 자유도를 생각해야 하는데, 두 변수가 각각 4개와 2개의 항목들을 가지고 있습니다. 우리가 "계"라는 항목을 이미 사용했기 때문에, 자유도는 각 변수당 하나씩 줄어든다고 생각할 수 있겠습니다. (이곳에서 이야기가 약간 복잡해지지만, 카이테스트의 자유도는 이곳을 참조하시구요.) 따라서, 우리가 구한 카이자승값은 자유도 (4-1)*(2-1)=3 의 카이자승분포를 따른다고 말할 수 있겠습니다.
카이자승분포표는 보통 아무 교과서 뒤편에 붙어 있는데, 문제에서 묻는 5% 수준의 자유도 3의 카이자승값은 12.8입니다. 이것보다 우리가 구한 카이자승값인 49.65가 훨씬 크므로, 영가설을 쉽사리 기각할 수 있겠습니다.
'eBiz전략마케팅' 카테고리의 다른 글
CPC 광고, 과연 SEO(검색엔진최적화)보다 뛰어날까? (1) | 2008.12.10 |
---|---|
decision tree 정리.. (0) | 2008.11.11 |
의사결정나무(Decision trees) (0) | 2008.11.09 |
의사결정나무(Decision Trees) (0) | 2008.11.06 |
의사결정나무(Decision Trees) (0) | 2008.11.06 |
댓글