데이터마이닝-분류

개념
데이터마이닝 분류기법의 정의 - 다수의 속성(attribute) 또는 변수를 갖는 객체(object)를 사전에 정해진 그룹 또는 범주(class, category) 중의 하나로 분류하는 것

I. 데이터마이닝 분류 기법의 개요

가. 데이터마이닝 분류기법의 정의

  • 다수의 속성(attribute) 또는 변수를 갖는 객체(object)를 사전에 정해진 그룹 또는 범주(class, category) 중의 하나로 분류하는 것

 

나. 데이터마이닝 분류기법의 특징

  • 동일 분류에 동일한 예측, 동일한 대응을 함으로써 새로운 상황을 분류한 후 예비대응 조치가 가능

 

다. 분류를 위한 방법론

        구분

설명

통계적 방법

로지스틱 회귀분석, 판별분석 등 다변량 통계이론에 바탕을 둔 방법

트리기반 기법

CART, C4.5/C5.0, CHAID 등 트리 형태의 분지방법을 이용하는 기법

비선형최적화 기법

서포트백터 머신(Support vector machine: SVM) 등

기계학습기법

신경망 등의 블랙박스 형태의 기법

 

구분 기준

모형화

내용

적용기법

활용 목적

서술적 모형화 방법

(Descriptive modeling)

주어진 데이터를 설명하는 패턴을 찾아내는 것이 주목적

연관규칙발견(Association Rule), 군집화(Clustering), Database, Segmentation, Visualization 등

예측 모형화

(Predictive modeling)

주어진 데이터에 근거한 모형을 만들고 이 모형을 이용하여 새로운 입력자료들에 대한 예측을 목적으로 함

분류(classification)

값예측(Regression, Time series analysis)

목표변수 유무

Supervised Data

결과변수(Target)가 정해진 경우

의사결정나무(Decision Tree)

인공신경망(Neural Network)

사례기반 추론(Cas-Based Reasoning)

Unsupervised Data

결과변수(Target)를 가지고 있지는 않음

입력 변수들을 중심으로 데이터사이의 연관성이나 유사성 분석

연관성 규칙발견(Association Rule Discovery, Market Basket)

군집분석 (k-Means Clustering)

II. 대표적인 분류기법

가. 로지스틱 회귀분석(Logistic Regression)

  • 정의: 독립변수의 선형결합을 이용하여 사건의 발생가능성(발생확률)을 예측하는데 사용되는  통계기법
  • 특징: 독립변수의 선형결합으로 종속변수를 설명한다는 관점에서는 회귀분석, 판별분석과 유사함
  • 가정: 종속변수는 명목척도로서 binary data이어야 함
  • 분석 과정
    • 직접적인 0과 1을 종속변수로 놓는 것이 아니라, 성공할 확률(즉 1이 될 확률) P를 상정
    • 로지스틱 분석에서는 이것의 승산비(odds ratio)인 P/(1-P)를 로그를 취해서 이것을 종속변수로 사용
    • 종속변수인 P는 직접적인 독립변수가 아니므로, 최대우도비분석 (Maximum Likelihood)을 가지고 계산
  • 독립변수와 종속변수 관계에 대한 가정

 

나. 의사결정 트리(Decision Tree) 분석

  • 정의: 의사결정 규칙 (Decision Tree)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류(Classification)하거나 예측(Prediction)을 수행하는 계량적 분석 방법
  • 특징: 결정트리를 통한 데이터 분석의 결과는 나무(Tree) 구조로 표현되기 때문에 분석가가 결과를 쉽게 이해하고 설명할 수 있음
  • 의사결정트리 알고리즘 종류

유형

내용

CHAID

가장 널리 사용되는 알고리즘으로 명목형, 순서형, 연속형 등 모든 종류의 목표변수와 분류변수에 적용이 가능

CART

CHAID와 마찬 가지로 목표변수나 분류변수의 척도에 관계없이 적용할 수 있다는 장점으로 인해 널리 사용됨

C5.0

ID3라는 이름의 알고리즘으로 만들어 졌다가 1993년에 C4.5를 거쳐 1998년에 완성된 알고리즘으로 명목형 목표변수만을 지원하는 단점이 있는 반면에 가장 정확한 분류를 만들어 주는 알고리즘으로 평가됨

  • 분석과정
    • 목표변수와 관계가 있는 설명변수들의 선택
    • 분석목적과 자료의 구조에 따라 적절한 분리기준과 정지규칙을 정하여 의사결정 나무의 구조 작성
    • 부적절한 나뭇가지는 제거 (가지치기)
    • 이익(Gain), 위험(Risk), 비용(Cost) 등을 고려하여 모형평가
    • 분류(Classification) 및 예측(Prediction)

 

  • 분석결과 예시

 

다. 신경망(Neural Network) 분석

  • 정의: 인간의 두뇌 자체를 모델로 하여 결정론적 이진 계산 모델에 기반해서 디지털 정보를 처리하는 방식이 아니고, 신경 세포들의 네트워크라는 생각에 기반하여 문제를 고도로병렬적ž분산적ž확률적인 계산으로 처리하는 분석방법

 

  • 특징:
    • 시간적이고 공간적인 연결강도에 의해서 특정한 장소가 아니라 신경망 내의 연결강도에 의해 정보를 분산적으로 저장
    • 새로운 이미지나 패턴 또는 사례가 주어졌을 경우 이를 기억하기 위해 자동적으로 자신의 내부 상태를 변화시킴
    • 스스로 학습하는 기능을 가지고 있어 외부입력에 따라서 같은 입력을 주었을 경우에도 서롤 다른 출력이 나올 수 있음

 

  • 신경망 분석의 장점
    • 다각도의 문제점 처리에 용이
    • 복잡한 도메인 자료에서도 좋은 결과 도출 가능
    • 연속형과 범주형 자료 모두 처리 가능

 

  • 분석결과 예시

댓글