회귀분석(Regression Analysis)

개념
- 원인이 되는 값과 결과가 되는 값의 상관관계를 통계적 기법에 의해 상관관계를 분석하는 대표적인 분류 기법

Ⅰ. 대표적인 분류분석 기법, 회귀분석(Regression Analysys) 의 개요

가. 회귀분석의 정의

- 원인이 되는 값과 결과가 되는 값의 상관관계를 통계적 기법에 의해 상관관계를 분석하는 대표적인 분류 기법

Ⅱ. 회귀분석의 유형

가. 독립변수의 수에 따른 유형

독립변수 수

유형

회귀식(사례)

독립변수

1개

단순회귀분석

Simple Regression Analysis

독립변수

2개 이상

다중회귀분석

Multiple Regression Analysis

* y=절편, ß는 기울기로, 독립변수 1개를 가지는 회귀식은 기울기가 있는 직선의 상관관계를 가짐.

나. 종속변수의 수에 따른 유형

종속변수 수

유형

종속변수 1개

일변량 회귀분석 Univariate Regression Analysis

종속변수 2개 이상

다변량 회귀분석 Multivariate Regression Analysis

다. 종속변수의 형태에 따른 유형

연속형

범주형(이산형)

종속변수 Y가 확률값을 갖는 연속형 변수

종속변수 Y가 범주형(이산형) 변수

회귀분석(Regression Analysis)

직교회귀분석(Orthogonal Regression Analysis)

로지스틱 회귀분석

Logistic Regression Analysis

- 직교회귀분석은 종속변수 Y값과 방정식간의 직각거리를 최소화하는 분석기법 이며, 로지스틱 회귀분석은 종속변수가 2개 이상인 다항 로지스틱 회귀분석과 분화 로지스틱 회귀분석으로 분류됨.

Ⅲ. 변수와 관계의 이해

가. 변수의 이해

독립변수

종속변수

설명변수

반응변수

예측변수

목표변수

방정식에서 X 값

방정식에서 Y값

Input

output

이제 어떤 이름으로 나오더라도 독립변수와 종속변수를 구분할 수 있음

나. 관계의 이해

선형관계

비선형관계

단조관계

- 선형관계는 위와 같이 우측으로 가면서 높아지는 양의 선형관계와 반대로 우측으로 가면서 낮아지는 음의 선형관계가 있음

- 단조관계는 독립변수와 종속변수가 동시에 증가하기는 하지만 같은 비율로 증가하지 않음

 

IV.회귀식의 과적합을 막기 위한 정규화 선형회귀

가. 정규화 선형회귀(Regularized Linear Regression)의 개념

- 선형회귀 계수(weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 회귀분석 기법

나. 정규화 선형회귀의 유형

유형

설명

Pythons함수명

Ridge

가중치들의 제곱합(squared sum of weights)을 최소화하는 것을 추가적인 제약 조건으로 하는 정규화 선형회귀 기법

Ridge()

LASSO

Lasso(Least Absolute Shrinkage and Selection Operator)

가중치의 절대값의 합을 최소화하는 것을 추가제약 조건으로 하는 정규화 선형회귀 기법

LASSO()

Elastic Net

가중치의 절대값의 합과 제곱합을 동시에 최소화 하는 것을 추가 제약 조건으로 하는 정규화 선형회귀 기법

ElasticNet()

댓글