본문 바로가기
MIS

[SAS] ▷▶ 유사성 계수 ( similarity coefficient )

by 누피짱 2009. 11. 20.

▷▶ 유사성 계수 ( similarity coefficient ) ; 유사성 cij를 나타내는 척도

대개 유사성은 비유사성의 조건 1)과 2)의 성질을 갖고 있다.

1) dij ≥ 0, i ≠ j ; dii = 0

2) dij = dji (대칭성)

자료 행렬 X가 양적자료(quantitative data)인 경우 잘 알려진 피어슨의 상관계수(correlation coefficient)가 유사성을 나타낸다.

자료행렬 X가 0과 1로 표현되는 xir (= 1 : 개체 i가 r 번째변수의 성질을 만족한다. / 0 : 그렇지 않다.)인 이진수 자료 (binary data)인 경우에 대한 몇 가지 유사성계수를 알아보자.

이를 위하여 10가지 경제전망 항목에 대해 한국은행과 동서증권 두 개체만을 고려한 다음의 이진수 자료를 생각해보자.


기관

경제 전망

1

2

3

4

5

6

7

8

9

10

한국은행

0

1

0

0

0

1

1

1

1

1

동서증권

1

1

0

1

1

0

1

1

1

1

이 경우 1-1과 0-0 찍진 것이 각각 5개와 1개이고 그리고 나머지 4개는 1-0 혹은 0-1 짝으로 이루어져 있다.

라 하면 제곱 유클리드 거리는

이다.

이 값에 전체 항목의 수를 나누어주면 비유사성을 얻을 수 있다. 사실 이 경우 두 짝 1-1과 0-0을 경제전망이 같은 경우로 처리를 하였다. 그러나 어떤 경우에는 경제전망을 1-1로 한 경우만의 개체들의 유사성에 관심이 있을 수도 있다. 이러한 다양성을 고려하기 위하여 다음과 같은 2×2 조합표 (association table)를 생각해 보자. 여기서 p=(a+b+c+d) 이다.

<2×2 조합표>


개체 j

합계

1

0

개체 i

1

a

b

a + b

0

c

d

c + d

합계

a + c

b + d

p


위와 같이 구성된 조합표에 근거하여 제안된 개체간의 유사성(cij )을 나타내는 유사성계수는 다음과 같다.

- 단순매칭계수 ( simple matching coefficient ) : cij = ( a + d ) / p

- 자카드계수 ( Jaccard's coefficient ) : cij = a / ( a + b + c )

- 러셀-라오계수 ( Russell and Rao coefficient ) : cij = a / p


제시된 예제에서, 한국은행과 동서증권의 이진수자료는 a=5, b=1, c=3, d=1 을 갖는 2×2 조합표를 구성한다. 이 때, 단순매칭계수를 유사성 cij 로 정의하고 비유사성은 dij = ( 1 - cij ) 로 정의하여 (이는 거리들의 조건 1)과 2)를 만족한다.) 유사성계수와 비유사성 계수를 구한 결과는 다음과 같다.


.


이 과정에 따라 전체 자료에 대한 비유사성행렬이 주어져 있는 경우 dij의 계산은 2×2 조합표를 이용하지 않고 di= i 번째와 j번째 개체간에 일치하지 않는 항목의 수)/10으로 대신할 수 있다.


이와 같이 계산되어진 유사성 cij로부터 dij를 유도하는 공식은 다음과 같다.


dij = (1-cij) , dij = (cii + cjj - 2cij)1/2 ; 유클리드 거리, dij = [2(1-cij)]1/2 ; cii = cjj = 1인 경우


각각의 유사성계수들에 의해 제공되어지는 비유사성 거리의 특징은 다음과 같다.

- 자카드계수로부터 계산되는 dij ; 거리들의 모든 조건을 만족(생태학자들이 종의 존재관점에서 식물의 군락을 비교하는데 널리 이용)

- 러셀-라오계수의 경우 ; dij = (1-cij) ≠0 인 경우도 있게 되어 거리들의 조건을 만족치는 않으나 계산의 편리성에 의해서 이용되기도 한다.

'MIS' 카테고리의 다른 글

SVM 개념  (0) 2009.11.20
[SPSS] 다차원척도법  (0) 2009.11.20
[SAS] ▷▶ 비유사성(dissimilarity)의 측정  (0) 2009.11.20
[SAS] ▷▶ 차원의 수  (0) 2009.11.20
[SAS] ▷▶ 스트레스( stress )  (0) 2009.11.20

댓글