서포트 벡터 머신(Support Vector Machine)

개념
- 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만드는 분류 모델 알고리즘

Ⅰ. 서포트 벡터 머신의 개요

가. 서포트 벡터 머신(Support Vector Machine, SVM)의 정의

- 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만드는 분류 모델 알고리즘

        - 데이터 클래스간의 폭을(Margin) 극대화 하는 최적화 기반의 분류기

나. 서포트 벡터 머신의 특징

- 분류기반 : 데이터를 2개의 분류로 분할

- 회귀분석 : 데이터를 2개의 분류로 나누는 초평면 회귀식 활용

Ⅱ. 서포트 벡터 머신의 개념도 및 기술요소

가. 서포트 벡터 머신 개념도

- Optimal Hyperplane : support vectors를 2개로 분할하는 초평면(우측 그림에서 가운데 점선)

나. 서포트 벡터 머신 기술요소

기술요소

설명

비고

Optimal Hyperplane

- 데이터를 두 클래스 중 어느 곳에 속하는지 결정하기 위한 최적의 분류 기준선

-n차원의 공간에서의 subspace 의미

Positive hyperplane

Negative hyperplane

Margin

-데이터를 두 클래스로 구분하는 최대 거리

-positive hyperplane 과 negative hyperplane 의 거리

최대 마진 분류

Support vectors

-초평면은 하나의 회귀식 (예: y=wx + b)

-초평면에 위치한 데이터는 y=0

-초평면 위쪽 y>0, 초평면 아래쪽 y<0

-초평면과 가장 가까운 위, 아래 점을 넣을 때 y=+1, y=-1이 나오는 점을 support vector라고 함

- vector들이 margin을 구하는데 supporting을 하기 때문에 support vector라고 부름

- 소프트 마진(Soft Margin) 은 여전히 가장 가까이 위치해 있는 제대로 분리되는 자료들의 거리를 최대화하면서, 주어진 자료들을 가능한 한 제대로 분리하는 초평면을 찾는 기법

Ⅲ. 차원별 SVM 그림 비교

댓글