데이터마이닝-클러스터 탐지

개념
의사결정 트리의 정의 - 의사결정규칙(decision rule)을 도표화하여 관심 대상이 되는 집단을 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법이다

I. 의사결정 트리(Decision Tree)의 개요

가. 의사결정 트리의 정의

- 의사결정규칙(decision rule)을 도표화하여 관심 대상이 되는 집단을 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법이다

 

나. 의사결정 트리의 특징

- 분석과정을 쉽게 이해하고 설명

- 분석정확도보다는 분석과정의 설명에 유용

 

II. 의사결정 트리의 개념도 및 분석 단계

가.의사결정 트리 개념도

 

나 .분석단계

분석단계

상세 활동

의사결정나무의 형성

분석의 목적과 자료구조에 따라서 적절한 분리

기준(split criterion)과 정지규칙(stopping rule)을 지정하여 의사결정나무를 얻는다.

가지치기

분류오류(classification error)를 크게 할 위험(risk)이 높거나 부적절한 규칙을 가지고 있는 가지(branch)를 제거한

타당성 평가

이익도표(gains chart)나 위험도표(risk chart) 또는 검

정용 자료(test data)에 의한 교차타당성(cross validation) 등을 이용하여 의사결정나무를 평가

해석 및 예측

의사결정나무를 해석하고 분류 및 예측모형을 설정

 

다. 알고리즘의 종류

종류

설명

CHAID

카이제곱 검정(범주형 목표변수) 또는 F-검정(연속형 목표변수)을 이용하여 다지분리(multiway split)를 수행하는 알고리즘

CART

지니 지수(범주형 목표변수인 경우 적용) 또는 분산의 감소량(연속형 목표변수인 경우 적용)을 이용하여 이지분리(,binary split)를 수행하는 알고리즘

C5.0

ID3라는 이름의 알고리즘으로 만들어 졌다가 1993년에 C4.5를 거쳐 1998년에 완성된 알고리즘으로 명목형 목표변수만을 지원하는 단점이 있는 반면에 가장 정확한 분류를 만들어 주는 알고리즘으로 평가됨

 

알고리즘

평가지수(선택방법)

비고

ID3

Entropy

다자분리(범주)

C4.5

Information Gain

다자분리(범주) 및 이진분리(수치)

C5.0

Information Gain

C4.5와 거의 유사(차이점)

CHID

카이제곱(범주), F검정(수치)

통계적 접근 방식

CART

Gini Index(범주), 분산의 차이(수치)

통계적 접근 방식, 항상 2진 분리

 

특성

CART

ID3

C4.5

실수 데이터

부등호 질문

등식 질문

부등호 질문

트리 형태

이진 트리

트리

트리

가지치기

잎 노드 병합

X

규칙 집합

분류

지원

지원

지원

회귀

지원

X

X

손실 특징

대리 분기

X

샘플 무시

다중 변수 질문

지원

X

X

 

 

 

 

 

 

 

 

 

 

 

 

예제) 날씨 데이터에 따른 의사결정 트리 분석

Outlook

temperature

humidity

windy

play

sunny

hot

high

FALSE

no

sunny

Hot

high

TRUE

no

overcast

hot

high

FALSE

yes

rainy

mild

high

FALSE

yes

rainy

cool

normal

FALSE

yes

rainy

cool

normal

TRUE

no

overcast

cool

normal

TRUE

yes

sunny

mild

high

FALSE

no

sunny

cool

normal

FALSE

yes

rainy

mild

normal

FALSE

yes

sunny

mild

normal

TRUE

yes

overcast

mild

high

TRUE

yes

overcast

hot

normal

FALSE

yes

rainy

mild

high

TRUE

no

날씨가 맑고(outlook=sunny) 습도가 낮으면(humidity=low) 운동을 한다. (play=yes)
날씨가 맑고(outlook=sunny) 습도가 낮으면(humidity=high) 운동을 한다. (play=no)
날씨가 흐리면(outlook=overcast) 운동을 한다. (play=yes)

 

- 원리

ㆍ 결정 트리의 원리

   * 스무고개와 개념이 비슷

   * 최적 기준에 따라 자동으로 질문을 만들어야 함

 

ㆍ 몇 가지 고려 사항

     * 노드에서 몇 개의 가지로 나눌 것인가?

     * 각 노드의 질문을 어떻게 만들 것인가?

     * 언제 멈출 것인가?

     * 잎 노드를 어느 부류에 할당할 것인가?

 

 

댓글