티스토리 뷰
1. 로지스틱 회귀(Logistic Regression)
- 종속변수가 2가지 범주형으로 표현될 때 로지스틱 회귀를 사용한다.
Ex) 예/아니오, 구매/비구매, 성공/실패...
- 로지스틱 회귀에서는 출력값이 (0,1)의 경계로 결정된다.
- 로지스틱은 이산형 변수를 가질 경우 사용한다.
2. 로지스틱 함수 사용 방법
로지스틱 모형의 경우 독립변수에 어떤 값이 오더라도 종속변수 혹은 결과 값이 0 과 1사이의 값이 와야한다. 로지스틱 함수가 사용되는 경우는 여러 독립변수(X_i)들로 수식을 유도하여, 그 결과 값에 따라 종속변수(Y_i)가 0,1로 결정된다.
이 과정을 위키백과 영문에 있는 한 예시를 이용하여 설명해보도록 하겠다.
"만약 20의 학생이 0~6시간 동안 공부하여 시험에서 합격 혹은 불합격을 했다. 공부 시간이 그들에게 얼마나 영향을 미쳤는가?"
이 경우 독립변수는 각 학생들의 공부시간이고, 종속변수는 합격 혹은 불합격이다. 합격일 경우 1을, 불합격일 경우 0이라고 가정한다.
로지스틱의 목표는 학생들이 공부한 시간에 따라 얼마나 시험에 합격할 확률이 얼마나 되는지를 보여주는 식을 구해야 한다. 해당 식에서 독립변수는 무한한 범위를 가져야 하고, 종속변수는 0~1사이의 값이다. 예를 들어 1.25시간 공부한 학생은 시험에 통과할 확률이 20%이라고 가정했을때, 독립변수값 1.25를 대입하여 0.20이라는 결과 값을 도출해야한다. 기존 선형회귀에서는 불가능하다. 이 조건을 만족하는 회귀식을 찾기 위해 아래의 과정을 거친다.
로지스틱 함수는 실패 확률보다 성공 확률이 몇 배 정도 높은지 알려주는 Odds 함수를 이용해 구한다. Odds 함수는 다음과 같다.
오즈(Odds)식을 이용하면, 사건 i에서의 오즈비를 구할 수 있다. 이를 식으로 전환하면 아래와 같다.
그 다음 해당 함수에 로그를 씌워 로짓 함수를 만든다.
확률 P_i의 범위는 (0,1)이므로 오즈변환식의 범위는 (0,∞)이다. 확률 p의 범위가 0부터 1사이이므로 우리는 독립변수 x에 대한 확률 p를 구해야한다. 그리고, 독립변수 x에 따라 일정한 선형 식에 의해 값이 변한된다고 가정하자. 독립변수 x에 따라 0과1사이에서 변화되는 확률 p를 아래의 식으로 구할 수 있다.
위 식을 정리하면 아래 식으로 구할 수 있고, 이 함수가 로지스틱 회귀식 모형이 된다. (식 정리 과정은 생략)
위 함수에 대한 그래프는 아래와 같이 나타난다. (b_1은 1, b_0은 0으로 가정)
3. 최대가능도법(Maximum Likelihood Method)
최대가능도를 이용하기위해 '가능도 함수(Likehood Function)'이 무엇인지 알아보자. 가능도 함수의 정의는 아래와 같다.
앞에서 구한 로지스틱 회귀식을 각각 y가 성공일때와 실패일때의 확룰 함수를 구한다.
두 식을 합치면 아래와 같다.
두개의 매개변수를 이용한 가능도 함수를 구하면 아래와 같다.
양변에 자연로그를 취하여 다음과 같은 로그 가능도를 얻는다.
위 식을 정리하면 회귀식의 두 계수를 구하는 식을 알아낼 수 있다.
'Knowledge > 인공지능' 카테고리의 다른 글
KNN 모델 (0) | 2018.01.21 |
---|---|
빈도론과 베이지안론 (0) | 2018.01.21 |
선형 회귀 (0) | 2018.01.21 |
상관계수 (0) | 2018.01.21 |
머신러닝의 정의와 분류 (0) | 2018.01.21 |