지지도/신뢰도/향상도

 

기출문제1)

다음은 장바구니 데이터를 이진 형식으로 표현한 것이다. 데이터 마이닝 규칙 {Milk, Diapers} → {Beer}에 대한 지지도(support)와 신뢰도(confidence)는 각각 얼마인가?

TID

Bread

Milk

Diapers

Beer

Eggs

Cola

1

1

1

0

0

0

0

2

1

0

1

1

1

0

3

0

1

1

1

0

1

4

1

1

1

1

0

0

5

1

1

1

0

0

1

① 지지도 0.67, 신뢰도 0.4

② 지지도 0.6, 신뢰도 0.6

③ 지지도 0.4, 신뢰도 0.67

④ 지지도 0.6, 신뢰도 0.67

 

 

 

 

TID

Bread

Milk

Diapers

Beer

Eggs

Cola

1

1

1

0

0

0

0

2

1

0

1

1

1

0

3

0

1

1

1

0

1

4

1

1

1

1

0

0

5

1

1

1

0

0

1

 

① 지지도(Support) : 전체 표본에서 A와 B를 동시에 포함하는 비율

- Support(A=>B) = Pr(A∩B)

- A와 B를 동시에 포함하는 거래 수 / 전체 거래 수

- 지지도 높을수록 연관 규칙의 의미 높아짐

Milk, Diapers, Beer 3가지 모두 포함하는 거래 수 : 2

전체 거래 수 : 5

Support(Milk, Diapers => Beer) = 2/5 =0.4

 

② 신뢰도(Confidence) : A를 포함하는 거래 중에서 B도 함께 포함된 거래의 비율

- Lift(A=>B) =Pr(B│A) /Pr(B) =Pr(A∩B) / (Pr(A)*Pr(B))

- A와 B를 동시에 포함하는 거래 확률 / (A 거래 확률 * B 거래 확률)

- 향상도가 1에 가까우면 A거래와 B거래간 독립적, 1보다 크면 연관관계 큼

Milk, Diapers, Beer 3가지 모두 포함하는 거래 확률 : 2/5

Milk, Diapers 거래 확률 : 3/5

Beer 거래 확률 : 3/5

Support(Milk, Diapers => Beer) = 2/5 / (3/5 * 3/5) = 10/9

 

문제2)

2. 데이터마이닝의 중요한 응용 중 하나는 연관규칙들을 발견하는 것이다. 제시된 장바구니 모델의 트랜잭션 예에서 지지도가 40%이상이고, 신뢰도가 70% 이상인 연관 규칙은 ?

트랜잭션 ID

구입한 물품

100

사과, 바나나, 우유, 빵

103

사과, 우유, 빵, 계란, 주스

105

사과, 바나나, 커피, 빵, 계란

218

커피, 빵, 주스

229

맥주, 오징어, 커피, 주스

356

맥주, 오징어, 우유, 빵, 커피, 주스

 

  • 커피 => 주스
  • 맥주 => 오징어
  • 빵 => 우유

사과 => 바나나

 

해설)  정답 1

 

지지도 = A와B를 동시에 포함하는 거래수 / 전체거래수 * 100

신뢰도 = A와B를 동시에 포함하는 거래수 / A를 포함하는 거래수 * 100

향상도 = A와B를 동시에 포함하는 거래수 / (A거래수 x B거래수 ) * 100

 

커피 => 주스의 지지도 = 3/6 * 100 = 50%

커피 => 주스의 신뢰도 = 3/4 * 100 = 75%

커피 => 주스의 향상도 = 3/(4*4) * 100 = 18.75%

 

 

문제3)

조건)

판매 품목

거래 수

 TV 구매

 4,000

 DVD 구매

 2,000

 TV와 DVD 동시 구매

 1,000

 전체 거래 수

 10,000

 

TV에 대한 DVD의 지표분석(TV를 사면 DVD도 같이 산다.)

  가. 지지도(Support) - 전체 거래 중 TV와 DVD를 구매한 사람 비율

      = TV & DVD / 전체거래 수 = 1,000/10,000 = 10%

  나. 신뢰도(Confidence) - TV를 산 사람들 중에 DVD를 산 사람들의 비율

      = TV & DVD / TV = 1,000/4,000 = 25%

  다. 리프트(Lift) - 임의로 B가 구매된 경우에 비해 연관규칙에 의해 B가 구매되는 경우의 비율

                         (1보다 크면 예측력이 있다고 평가)

      = 지지도/(TV구매확률*DVD구매확률)

      = 0.1/(0.4*0.2) = 1.25 > 1 따라서 연관성이 있음.

댓글