본문 바로가기
MIS

[SPSS] 다차원척도법

by 누피짱 2009. 11. 21.

<목차>
1. 다차원척도법이란?
2. M.D.S. 분석과정
3. 자료의 측정
4. M.D.S.의 종류
5. STRESS와 적합도 수준

1. 다차원척도법(MDS)이란?
1) 개념 및 정의
MDS는 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들사이의 유사성/비유사성을 측정한다. 그러나 MDS에서는 유사성/비유사성 값을 이용하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법이다. 개체들을 2차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석방법이다.

MDS는 군집분석과 같이 여러 개체들을 대상으로 몇 개의 특성변수를 측정한 후에 이 변수들을 이용하여 개체들 사이의 거리 또는 비유사성을 측정하고, 이를 이용하여 개체들을 2차원 또는 3차원 공간상의 점으로 표현하는 통계적 분석방법이다. 군집분석은 개체들간의 비유사성을 이용하여 동일한 그룹들로 분류하고자 한다. 반면, MDS는 개체들의 비유사성을 이용하여 공간상에 표시함으로써 개체들간의 상대적인 위치를 표시하고, 이를 이용하여 유사한 개체들을 파악하며, 이들 개체들을 2차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석방법이다.

2) 다차원척도법의 적용사례
다음과 같은 예를 살펴보자.
우리나라의 도시를 표시하고 있는 지도가 주어졌다 하자. 이러한 경우 이 지도를 이용하여 도시간의 거리들을 쉽게 파악할 수 있을 것이다. 반면에 도시간의 거리가 <표 >와 같이 주어진 경우, 이 거리들을 이용하여 도시들의 위치를 나타내는 지도를 그려본다고 하자.

< 표 > 우리나라 도시간 거리
  서울 인천 부산 대구 대전 청주 춘천 광주 전주
서울 0                
인천 28 0              
부산 306 315 0            
대구 213 224 94 0          
대전 128 130 187 104 0        
청주 100 107 208 118 31 0      
춘천 91 119 295 202 158 128 0    
광주 240 232 177 154 126 156 284 0  
전주 173 169 178 118 57 87 215 69 0

이와 같은 경우, 각 개체간의 상대적인 거리를 이용한 다차원척도법을 이용하여 공간상에 표현하면 아래의 <그림 10.2> 와 같이 표현할 수 있다.

<그림 10.2> MDS를 이용한 도시 거리 지도

이와 같이 각 개체간의 거리 또는 비유사성이 주어졌을 때, 이를 이용하여 공간상에 표현하여 데이터의 구조를 파악하고, 이를 이용하여 각 개체의 상대적인 위치에 대한 유사성을 파악하기 위한 방법이 다차원척도법이다.
MDS는 인구, 면적, 학교수, 물가지수, 예산액 등을 이용하여 각 도시별 특성을 파악한 후, 이를 이용하여 도시의 유사성 정도를 측정하는 데에 이용할 수 있으며, 또한 소비자 제품의 유사성 정도를 파악하는 데 이용된다. MDS는 원래 심리학에서 각 개체들의 유사성 정도에 대한 사람들의 판단 정도를 분석하기 위한 방법으로 고안되었으나, 이제는 다차원 데이터를 저차원으로 축소시켜 데이터 구조를 파악하고, 공간상에 표현하므로써 각 개체들의 유사성 정도를 파악하는 방법으로 널리 이용되고 있다.
MDS는 자료의 특성에 따라 메트릭 MDS (metric MDS) 또는 넌메드릭 MDS(nonmetric MDS)으로 나누어진다. 순서척도 자료에 근거하여 비유사성이 측정되는 경우의 분석방법을 넌메트릭 MDS라 하고, 구간척도나 비율척도 자료에 근거하여 비유사성이 이루어지는 경우의 분석방법을 메트릭 MDS라고 한다. MDS는 개체들 사이의 비유사성을 이용하여 공간상에 개체를 표현할 때, 개체들 사이의 원래의 비유사성 정도를 최적으로 표현하기 위해 반복과정을 통하여 이루어지게 된다. 표현된 최적 위치의 적합성은 Kruskal의 STRESS(STandardized REsidual Sum of Squares) 또는 S-STRESS를 이용한다. STRESS 또는 S-STRESS는 공간상의 표현이 주어진 비유사성에 어느 정도 적합한가를 측정하는 기준이 된다.

2. M.D.S. 분석과정

MDS분석에서는 n개의 개체들을 대상으로 p개의 변수들을 측정한 후에 개체들을 저차원(일반적으로 2차원) 공간상에 점으로 표현한다. 각 개체들을 대상으로 p개의 변수들을 측정할 때, 각 개체들은 각 변수들을 축으로 하는 p차원 공간상에 점으로 표현할 수 있다. MDS에서는 어떻게 하면 효과적으로 p차원 공간상에 존재하는 개체들을 2차원 공간상에 표현할 수 있는가를 연구하게 된다. 분석과정에서 자료수집과 유사성/비유사성 측정과정은 군집분석과정과 동일하며 p차원에 존재하는 개체들을 2차원에 표현하는 방법은 반복과정을 이용하여 구한다. 그리고 2차원에 표현하고자 할 때 반복과정을 수행하면서 각 과정별로 개체들의 p차원 공간상에서의 원래거리와 2차원 공간상에서 표현된 거리 사이의 일치성을 측정하는 것을 스트레스(또는 S-스트레스)라고 한다. 스트레스를 가능한한 작게 하도록 반복과정을 수행하며 최종표현결과의 적합도수준은 스트레스값에 의하여 결정된다.

3. 자료의 측정

MDS분석에서는 개체들을 대상으로 변수를 측정하는데 변수들은 숫자로 관측하는 구간척도/비율척도로 측정하는 경우와 명목척도로 측정하는 경우로 구분할 수 있다. 구간척도/비율척도로 측정하는 경우에는 유클리드 거리를 이용하여 개체들 사이의 거리(비유사성)를 구한다. 반면에 명목척도로 측정한 경우에는 각 범주의 관측도수의 수를 이용하여 개체들 사이의 거리(비유사성)를 측정한다. 이와같이 개체들 사이의 거리를 측정한 후에는 2차원 공간상에 개체들을 표현해야 하는데, 개체들 사이의 원래 거리와 2차원공간상에 표현하였을 때의 거리를 이용하여 두 값의 일치성을 측정하는 기준인 스트레스(Stress)를 이용하여 2차원 공간상의 표현방법을 구한다. 이 과정을 반복하여 최종적인 표현방법을 정하는데 최종적으로 스트레스의 크기가 5%이내이면 잘표현되었다고 할 수 있고 20%이상인 경우에는 잘못 표현되었다고 할 수 있다.

4. MDS의 종류(메트릭 MDS 와 넌메트릭 MDS)

1) 메트릭 MDS
메트릭 MDS는 데이터가 구간척도나 비율척도인 경우에 이용되는 분석방법이다. n개의 케이스에 대해서 p개의 특성변수가 있는 경우, 각 개체들간의 유클리드 거리행렬을 D 라고 하자. 유클리드 거리 제곱의 행렬을 이라 할 때, 개체들간의 비유사성 S 는 거리제곱의 행렬 의 선형함수로 주어지며, 이를 이용하여 공간상에 표현하게 된다. 비율척도인 경우는 절편이 0인 선형함수로 주어진다.

2) 넌메트릭 MDS
넌메트릭 MDS는 데이터가 순서척도로 주어지는 경우에 이용되는 분석방법이다. 개체들간의 거리가 순서로 주어진 경우에는 순서척도 데이터를 거리의 속성과 같도록 변환시키는 과정(monotone transformation)을 거쳐 MDS 분석에 들어가게 된다. 여기서 최적 변환(optimal scaling)을 거쳐 생성된 거리를 disparity 라고 한다.

5. STRESS와 적합도 수준M

각 개체들을 공간상에 표현하기 위한 방법은 STRESS나 S-STRESS를 부적합도 기준으로 사용한다. 최적모형의 적합은 부적합도를 최소로 하는 방법으로 반복알고리즘을 이용하게 적합하게 되며, 이 값이 일정한 수준이하로 될 때 최종적으로 적합된 모형으로 제시하게 된다. 이 값은 0과 1 사이의 값을 취하며, 0 으로 작아질수록 적합된 모형이 적절하다고 판단한다. 표현된 결과의 적합 정도를 나타내기 위하여 Kruskal은 STRESS의 크기와 표현결과의 적합성에 대하여 다음과 같은 관계를 제시하였다.

STRESS 적합도 수준
0 완 벽 (perfect)
0.05 이내 매우 좋음 (excellent)
0.05 - 0.10 만 족 (satisfactory)
0.10 - 0.15 보 통 (acceptable, but doubt)
0.15 이상 나 쁨 (poor)


이러한 기준에 의할 때 STRESS의 크기가 0.10 이상인 경우는 STRESS의 크기가 적정 수준이 될 때까지 차원을 높일 필요가 있다. STRESS는 표현 공간이 커질수록 작아진다. 그러나 표현공간이 클수록 결과의 해석이 복잡해지므로 일반적으로 2차원 또는 3차원 정도가 이용된다.

'MIS' 카테고리의 다른 글

Support Vector Machine  (0) 2009.11.20
SVM 개념  (0) 2009.11.20
[SPSS] 다차원척도법  (0) 2009.11.20
[SAS] ▷▶ 유사성 계수 ( similarity coefficient )  (1) 2009.11.20
[SAS] ▷▶ 비유사성(dissimilarity)의 측정  (0) 2009.11.20

댓글