데이터마이닝의 개요와 절차

개념
- 대용량의 데이터 안에서 체계적인 통계적 규칙 이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 일련의 과정 - KDD(Knowledge discovery in database

I. 효율적인 의사결정을 위한 유용한 정보의 추출,  Data Mining의 개요

가. 데이터 마이닝(Data Mining)의 정의

- 대용량의 데이터 안에서 체계적인 통계적 규칙 이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 일련의 과정

- KDD(Knowledge discovery in database)

 

나. 데이터 마이닝(Data Mining)의 특징

1) 대용량의 관측 가능한 자료를 다루고 컴퓨터 중심의 기법.

2) 경험적 방법이 중시

3) 현재의 자료보다 미래의 자료를 잘 설명할 수 있는 모형을 추구.

 

다. Data Mining의 등장배경

  1) 고도의 전문적인 의사결정 시스템의 필요성 증가

  2) Datawarehouse활성화에 따라 Data Mining구축인식 확산

 

라. Data Mining 주요기능

구분

주요 기능

검증

사용자 응용시스템의 가설 입증

발견

관계 및 패턴 발견

예측

특정객체의 미래행위 예측

묘사

사용자가 이용 가능한 형태로 표현/변환

 

II. Data Mining 적용기법 및 연관규칙(Association Rule)측정 방법

가. Data Mining 적용기법

적용기법

설명

연관성 탐사
Association

- 관련성이 강한 데이터의 조합을 통해 패턴을 발견 하는 것

- 제품간의 관계를 찾아내는 장바구니 분석에 주로 사용됨.

[사례] 넥타이를 구매하는 고객이 셔츠를 50%이상 구매하고 정장과 벨트를 구매하는 고객은 코트를 구매할 확률이 40% 이상.

 

연속성 규칙

Sequence

- 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성을 예측하는 것

[사례] A 품목을 구입한 회원이 향후 H 품목을 구입할

가능성은 75% 이다.-> 5번 회원에게 H 품목 추천하여

마케팅의 정확도를 높임

분류 규칙

Classification

- 이미 알려진 특정 그룹의 특징을 부여하고 정의된 분류에 맞게 구분

[사례] 은행 대출을 위한 고객 신용도 구분

군집 분석

Clustering

- 상호 유사한 특성을 지닌 데이터를 그룹화하여 패턴을 분석

[사례]

- A~D의 데이터를 집단화하는 과정에서 고객군집별 특성을 파악함

- A 군집은 월소득 300만원 이상, 자녀 2-3명 연령이 30대 군집

- B 군집은 대졸이상, 자녀는 모두 출가했고, 연평균 구매액이 200~300만원 정도

특성화

Characterization

- 데이터 집합의 일반적인 특성을 분석하는 것으로 데이터의 요약 과정을 통해 특정 규칙을 발견하는 것

 

나. 연관규칙(Association Rule)측정 방법

1) 연관규칙(Association Rule)의 정의

연관 규칙

정 의

지지도( Support)

물건을 구매한 전체 거래 내역 중에서 X 또는 Y 라는 물건을 살 확률

신뢰도(Confidence)

X라는 물건을 산 거래 중에서 Y라는 물건을 살 확률

향상도(Lift)

X, Y 품목간의 상관관계

 

2) 연관규칙(Association Rule)의 측정 방법

연관 규칙

측 정 방 법

지지도

Support

P(X,Y) / 전체 트랜잭션의 수

빵, 우유를 구입한 트랜잭션의 수 / 전체 트랜잭션의 수

신뢰도

Confidence

P(X,Y) / P(X)

빵, 우유를 구입한 트랜잭션의 수 /

빵 을 구입한 트랜잭션의 수

향상도

Lift,

Improvement

P(X,Y)/

(P(X)*P(Y)) * 전체 트랜잭션의 수

빵, 우유를 구입한 트랜잭션의 수/

((빵을 구입한 트랜잭션의 수)*(우유를 구입한 트랜잭션의 수)) *

전체 트랜잭션의 수

- Lift =1 : 서로 독립적, Lift <1 : 음의 연관성, Lift >1: 양의 연관성

 

3) 연관규칙(Association Rule) 적용 사례

거래번호

품목

1

우유, 빵, 버터

2

우유,버터, 콜라

3

빵, 버터, 콜라

4

우유,콜라, 라면

5

빵, 버터, 라면

- 리프트가 1보다 크므로 양의 상관관계 즉, 상호 동시판매 영향도가 큼을 알 수 있음

 

 

III. Data Mining의 구축 절차

단계

설명

Data 선택

- 필요 Data의 위치, 형태, 완전성 등을 파악하여
확보/통합하는 과정

Data 정제

- 확보된 데이터의 완성도를 높이는 작업

Data 보완

- 데이터의 양과 깊이를 늘리는 작업

Data 변환

- 불필요한 레코드, 항목삭제, 파생 항목을 만들거나 항목의 값을 세분화 또는 그룹핑하는 작업

Data Mining 적용 및 평가

- 구축된 Data 에 대한 Data Mining 적용기술을 적용하여 도출된 결과를 해석

- 의미있는 결과는 의사결정에 적용

 

 

IV. Data Mining과 관련기술 OLAP과의 비교

가. Data Mining과 OLAP의 개념도

- OLAP(Online Analytical Processing)은 정보사용자가 직접 접근하여 다차원 질의를 통해 대화식으로 정보를 탐색하고 분석하는 프로세스

 

나. Data Mining과 OLAP의 비교

구 분

Data Mining

OLAP

개 념

컴퓨터에 의해 가설을 세우고 검증하는 기법

분석과정에서 사용자들의 사전

지식 검증

주체

컴퓨터

사용자

단점

분석기법에 대한 이해 필요

모든 질문을 사용자가 생각

특 징

진보적인 방법

고정적인 방법

통 합

주로 상호 보완적으로 사용되며 일반적으로 마이닝을 하기전에

OLAP을 미리 적용

 

다. Data Mining과 OLAP의 통합 방안

- OLAP벤더들이 툴 기능에 Data Mining 기법추가

- OLAP이 DBMS엔진과 통합됨에 따라 Data Mining을 위한 데이터 준비 시간 단축, 사용자의 접근 용이

- OLAP의 검증형 접근법과 DataMining의 발견형 접근법의 통합은 사용자의 의사결정을 효과적으로 지원

 

V. Data Mining의 도구 선정 시 고려사항

가. 사용자 편리성 : 사용하기 쉽고 통계자료 등의 사용이 용이해야 함

나. DB접근 개방성 : 다양한 Source Data에 독립적으로 접근이 용이해야하며 EAI, BI 등과의 통합 연동 서비스 제공

다. 운영 환경 : 다양한 플랫폼에서 적용 가능

라. 다양한 Data Mining 알고리즘 제공 : 데이터 추출을 위한 반복 적용 및 측정에 용이 해야 하며, 기본적인 추출 알고리즘 제공

 

 

Ⅵ. 데이터 마이닝(Data Mining) 활용분야 및 전망

가. Data Mining의 활용분야

1) 유통분야: 매출,수익성분석, 광고효과분석, 고객패턴분석

2) 통신분야: 고객성향 변동관리(이용시간, 지역)

3) 금융분야: 고객구매 패턴 및 시기, 신용도 분석

4) 치안분야: 범인의 행동패턴, 심리분석

5) 의료분야: 과거자료로 판별 및 분류분석

 

나. Data Mining 의 전망

- Data Mining을 위한 통합된 환경을 제공하고 다양한 업무에 지속적으로 적용 가능한지 고려하여 Tool을 선택

- 경험과 지식을 갖춘 Data Mining 전문가와 이를 활용할 수 있는 조직 프로세스 정립 필수웹을 통한 채널의 증대로 Web Mining을 적용하는 기술의 연계

댓글