데이터마이닝-연관규칙(Association)

개념
- 대용량의 데이터에 숨겨져 있는 데이터간의 관계, 패턴을 탐색하고 이를 모형화하여 업무에 적용할 수 있는 의미 있는 정보로 변환함 으로써 기업의 의사결정에 적용하는 일련의 과정

I. 효율적 의사결정을 위한 의미있는 지식 추론, Data Mining의 개요

가. 데이터 마이닝(Data Mining)의 정의

- 대용량의 데이터에 숨겨져 있는 데이터간의 관계, 패턴을 탐색하고 이를 모형화하여 업무에 적용할 수 있는 의미 있는 정보로 변환함 으로써 기업의 의사결정에 적용하는 일련의 과정

 

나. 데이터 마이닝(Data Mining)의 특징

- 정보의  Activity와  Rule을 추론하여 경영의 경쟁력 강화를 위하여 목표 예상을 가능하게 함

- 지식집약적(Knowledge Intensive) : 응용분야 지식, DB/DW지식, 데이터마이닝 기법에 대한 지식

 

다. 데이터마이닝 DW 관계

- DW는 정제된, 표준화된, 일관된 데이터를 만들어 데이터 마이닝 적용이 용이하게 함

- DW는 효율적인 데이터 마이닝의 출발점

 

II. Data Mining의 과정

가. 데이터 마이닝(Data Mining)의 수행단계

 

나. 데이터 마이닝(Data Mining)의 각 단계별 수행내용

구분

수행 내용

Data 선택

  • 필요 Data의 위치, 형태, 완전성 등을 파악하여 확보/통합하는 과정

Data 정제

  • 확보된 데이터의 완성도를 높이는 작업

Data 보완

  • 데이터의 양과 깊이를 늘리는 작업

Data 변환

  • 불필요한 레코드, 항목 삭제, 파생항목을 만들거나 항목의 값을 세분화 또는 그룹핑하는 작업

Data Mining적용 및 평가

  • 구축된 데이터에 대한  Data Mining 기술을 적용하여 도출된 결과를 해석
  • 의미 있는 결과는 의사결정에 적용

 

 

III. 데이터 마이닝의 연관 기법 (Association Rule

가. 데이터 마이닝의 연관기법의 개념

- 특정 트랜잭션에 하나의 제품이 존재하고 동시에 같은 트랜잭션에 다른 제품이 존재할 때 이러한 두 제품 사이의 연관성을 발견하는 기법

- 대용량 데이타베이스 내의 단위 트랜잭션에서 빈번하게 발생하는 사건의 유형을 발견하는 기법

- 동시에 구매될 가능성이 큰 상품들을 찾아냄으로써 시장바구니 분석(Market Basket Analysis)에서 다루는 문제들에 적용 가능

- 연관규칙: “상품 A가 구매되어진 경우는 상품 B도 구매된다.”

 

나. 데이터 마이닝 연관기법의 과정

- 대용량 데이터군 검색:  트랜잭션을 대상으로 최소지지도 이상을 만족하는 빈발항목 집합을 발견하는 과정

- 연관규칙을 발견: 발견된 다량 항목 집합 내에 포함된 항목들 중에서 최소신뢰도 이상을 만족하는 항목들 간의 연관규칙을 생성하는 단계

- Apriori 알고리즘 : 96회 기출풀이 참조

 

 

IV. 연관 정도를 정량화 하기 위해서 세 가지 기준

구분

설명

지지도(Support)

  • 전체 거래 중 항목 X와 항목 Y를 동시에 포함하는 거래가 어느 정도 인가를 나타내주며 전체적 구매도에 대한 경향을 파악

신뢰도(Confidence)

  • 항목 X를 포함하는 거래 중에서 항목 Y가 포함될 확률은 어느 정도인가를 나타내주며 연관성의 정도를 파악

리프트 (Lift / Improvement)

  • 항목 X를 구매한 경우 그 거래가 항목 Y를 포함하는 경우와 항목 Y가 임의로 구매되는 경우의 비

  • 예시)

 

 

V. 연관규칙의 장단점

구분

설명

장점

  • 탐색적인 기법 : 조건 반응(if-then)으로 표현되는 연관성분석의 결과 이해가 쉽다. 강력한 비목적성 분석기법 : 분석방향이나 목적이 특별이 없는 경우 목적변수가 없으므로 유용함
  • 사용 편리한 분석데이터의 형태 : 거래내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료구조를 갖는 분석방법
  • 계산의 용이성 : 분석을 위한 계산이 상당히 간단하다

단점

  • 상당한 수의 계산과정 : 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어남
  • 적절한 품목의 결정 : 너무 세분화된 품목을 가지고 연관성 규칙을 찾으면 의미 없는 분석이 될 수도 있음
  • 품목의 비율차이 : 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고, 규칙발견시 제외되기가 쉽다

댓글