1 | 의사결정나무의 개념 |
의사결정나무(Decision Tree)는 의사결정규칙(Decision Rule)을 나무구조로 도표화하여 분류와 예측을 수행하는 분석 방법이다.
이 방법은 분류 또는 예측의 과정이 나무구조에 의한 추론규칙에 의해서 표현되기 때문에 다른 방법들(신경망, 판별분석, 회귀분석 등)에 비하여 연구자가 그 과정을 쉽게 이해하고 설명할 수 있다는 장점을 가지고 있다. 데이터마이닝에서의 의사결정나무는 탐색과 모형화라는 두 가지 특성을 모두 가지고 있다고 할 수 있다. 즉, 의사결정나무는 판별분석 또는 회귀분석 등과 같은 모수적 모형을 분석하기 위히여 사전에 이상치들을 검색하고나 분석에 필요한 변수 또는 모형에 포함되어야 할 교호효과를 찾아내기 위하여 사용될 수도 있고, 그 자체가 분류 또는 예측 모형으로 사용될 수도 있다. 의사결정나무는 하나의 나무구조를 이루고 있으며, 마디(node)라고 불리는 구성요소들로 이루어져 있다. 마디는 그 기능에 따라서 다음과 같이 여러가지로 분류할 수 있다.
의사결정나무분석은 일반적으로 다음과 같은 단계를 거치게 된다.
위와 같은 과정에서 분리기준, 정지규칙, 평가기준 등을 어떻게 지정하느냐에 따라서 서로 다른 의사결정나무가 형성된다. 실제로 분석을 수행함에 있어서 반드시 이러한 순서를 따라야 하거나 모든 과정을 수행해야 하는 것은 아니지만, 단 한번에 분석이 끝나지도 않는다. 연구자는 필요한 과정을 반복적으로 수행하여 다양한 의사결정나무를 얻고 연구목적이나 자료구조 또는 실제의 적용에 따르는 문제점 등에 의해서 이들을 비교하고 검토하여 가장 적절한 의사결정나무를 얻을 수 있도록 노력해야 한다. |
2 | 순수도와 분리기준 |
분리기준은 하나의 부모마디로부터 자식마디들이 형성될 때, 입력변수(Input Variable)의 선택과 범주(Category)의 병합이 이루어 질 기준을 의미한다.
즉, 어떤 입력변수를 이용하여 어떻게 분리하는 것이 목표변수의 분포를 가장 잘 구별해 주는지를 파악하여 자식마디가 형성되는데, 목표변수의 분포를 구별하는 정도를 순수도(Purity), 또는 불순도(Impurity)에 의해서 측정하는 것이다. 이 때 순수도란 목표변수의 특정 범주에 개체들이 포함되어 잇는 정도를 의미한다. 의사결정나무는 부모마디의 순수도에 배해서 자식마디들의 순수도가 증가하도록 자식마디를 형성해 나가게 된다. 사실 마디의 순수도를 나타내는 어떠한 것도 분리기준으로 사용될 수 있으나, 일반적으로는 목표변수의 측도에 따라서 다음과 같은 분리기준들이 사용된다. 이산형 목표변수에 사용되는 분리기준은 아래와 같다.
연속형 목표변수에 사용되는 분리기준은 아래와 같다.
다음으로 의사결정나무에서 정지규칙과 가지치기라는 순서가 있는데 정지규칙은 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙을 말하며, 가지치기는 형성된 의사결정나무에서 적절하지 않은 마디를 제거하여, 적당한 크기의 부나무(Subtree)구조를 가지는 의사결정나무를 최종적인 예측모형으로 선택하는 것을 말한다. |
3 | 의사결정나무의 장단점 |
의사결정나무의 장점은 아래와 같다.
반면에 단점은 아래와 같다.
|
'eBiz전략마케팅' 카테고리의 다른 글
decision tree 정리.. (0) | 2008.11.11 |
---|---|
Chi-Square Test (0) | 2008.11.10 |
의사결정나무(Decision Trees) (0) | 2008.11.06 |
의사결정나무(Decision Trees) (0) | 2008.11.06 |
웹디자인 :: 효과적인 웹사이트 구축을 위한 UI 설계 방안 (0) | 2008.11.02 |
댓글