유사도측정-유클리디안거리, 코사인유사도, 마할라노비스거리, 자카드계수

개념
점, 벡터 등으로 표시되는 임의의 두 지점 간의 거리를 측정하여 유사성을 측정하는 기법, 유클리디안거리, 코사인유사도, 마할라노비스거리, 자카드계수 등이 있음

Ⅰ. 유클리디안거리 개념

가. 유클리디안거리(Euclidean Distance) 개념

- 피타고라스정리의 개념을 이용하여 두 점 사이의 거리를 측정하는 기법

나. 유클리디안거리 식

개념도

다. 유클리디안 거리 예시

 

Ⅱ. 코사인유사도 개념

가. 코사인유사도(Cosine Similarity) 개념

- 내적공간의 두 벡터간의 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도

나. 코사인유사도 의미

각도가 0 일때,

완전 동일

코사인 값은 1

다른 모든 각도

각도가 작을수록 유사도가 높음

코사인 값은 1보다 적음

다. 코사인 유사도식

벡터상 개념도

 

Ⅲ. 마할라노비스거리 개념

가. 마할라노비스거리(Mahalanobis Distance) 개념

- 확률분포를 고려하여 공분산을 이용한 두 지점간의 거리를 측정

- 유클리디안 거리에서 점 수를 늘려 거리를 구함

- 공분산: 확률변수의 상관정도를 나타내는 값으로 X의 편차와 Y의 편차를 곱한것의 평균값

나. 마할라노비스거리 식

(참고) 공분산 이해

확률변수 X 의 기대값과 Y의 기대값을

 

라고 할때, X,Y의 공분산은 다음과 같다.

 

Ⅳ. 자카드(Jaccard) 계수

가. 자카드 계수의 개념

- boolean 속성의 두개의 오브젝트 A,B에 대하여 A와B가 1(true)의 값을 가지는 교집합의 개수를 A와 B가 1(true)의 값을 가지는 합집합의 개수는 나눈 수

나. 자카드 계수의 수식

 

다. 자카드 계수 예시

 

Ⅴ. 기타 유사도 측정 기법

-피어슨 상관계수, 해밍거리 등

댓글