데이터마이닝-연속규칙
태그 :
- 개념
- - 연관 규칙에 시간의 개념을 첨가하여 시간의 흐름에 따른 항목들의 상호 연관성을 탐색 - 사용자가 정의한 최소지지도를 갖는 시퀀스인 빈도가 높은 시퀀스(large sequence)를 추출하고 이들 가운데 최대 시퀀스(maximal sequence)를 찾는 것 - 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 측정에서 시간이라는 시계열 자료의 개념이 포함되어 순차적인 구매 가능성이 큰 상품군을 찾아내는 것
I. 대용량 데이의 유용한 정보의 추출, 데이터 마이닝의 개요
가. 데이터 마이닝 연관규칙(순차패턴)의 정의
- 연관 규칙에 시간의 개념을 첨가하여 시간의 흐름에 따른 항목들의 상호 연관성을 탐색
- 사용자가 정의한 최소지지도를 갖는 시퀀스인 빈도가 높은 시퀀스(large sequence)를 추출하고 이들 가운데 최대 시퀀스(maximal sequence)를 찾는 것
- 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 측정에서 시간이라는 시계열 자료의 개념이 포함되어 순차적인 구매 가능성이 큰 상품군을 찾아내는 것
나. 순차패턴의 알고리즘 단계
- 1단계 : 거래의 정렬 단계(Sort Phase)
- 2단계 : 빈도가 높은 항목집합 발견 단계(Litemset Phase)
- 3단계 : 거래 데이터베이스 변환 단계(Transformation Phase)
- 4단계 : 빈도가 높은 시퀀스 발견단계(Sequence Phase)
- 5단계 : 최대 시퀀스 발견 단계(Maximal Phase)
II. 순차패턴 알고리즘의 종류
가. 순차패턴 알고리즘의 종류
구분 |
항목 |
내용 |
Apriori |
AprioriAll |
|
AprioriSome |
|
|
DynamicSome |
|
|
GSP (Generalized Sequential Patterns) |
|
|
Pattern-Growth |
FreeSpan |
(alternative-level projection) 수행.
|
PrefixSpan |
|
III. 최근 연구동향
가. 시퀀스 데이터베이스에서 빈도가 높은 시퀀스를 찾는 것으로 데이터 마이닝 작업에서 매우 중요하고 폭넓은 응용 가능.
나. 고객의 범주나 다른 다차원 정보와 관련이 되어 있다면 분류되는 패턴들은 좀 더 유용할 것이므로 효과적인 마이닝 예상.
다. 최근 연구들은 데이터 마이닝 연구의 또 다른 분야로서 다차원 분석이 관심의 대상.
라. 순차 패턴 마이닝과 다차원 분석을 통합하여 다차원 순차 패턴 마이닝 알고리즘이 제안.