본문 바로가기
환급 챌린지!

[패스트캠퍼스 수강 후기] 머신러닝 인강 100% 환급 챌린지 19회차 미션

by 빅데이터1020 2020. 11. 7.
SMALL

안녕하세요.

패스트 캠퍼스 수강후기 - 머신러닝과 데이터 분석 A-Z 19회차 미션 시작합니다!

머신러닝 인강 후기 19회차는 로지스틱 회귀분석에 대해 공부합니다.

 

분석파트는 이론과 실습이 모두 제공됩니다.

저는 이론부분만 정리해서 올릴 예정입니다!

 

로지스틱 회귀분석 실습은 강의에서 제공하는 파일을 보면서 강사님의 지시에 따라 실습을 따라하시면 됩니다.

" 로지스틱 회귀분석 "

 

로지스틱 회귀는 출력변수를 직접 예측하는 것이 아니라, 두 개의 카테고리를 가지는 binary 형태의 출력변수('성공/실패' 또는 '/아니오')를 예측할 때 사용하는 회귀분석 방법입니다.

 

로지스틱 회귀에서는 k개의 입력변수를 사용하여 성공 실패를 예측하기 위해 성공확률 p(X)를 모델링합니다.

p(X) = P(sucess | X1, X2, ..., Xk) = β0 + β1X1 + β2X2 + .. + βkXk + random error

 

방정식의 왼쪽 범위는 [0, 1]이지만 오른쪽의 범위는 [-, +]이므로 다른 형태로 모델링을 해야합니다.

 

왼쪽항에 자연로그를 취해 ln(p(X))[-, +]가 됩니다.

하지만 이를 만족하기 위해서는 p(X)[0, +]의 범위여야 합니다.

확률 p(X)maximum1이므로 ln(p(X))+값을 가질 수 없습니다.

따라서 왼쪽식을 오즈비로 바꾸어줍니다.

 

" 로지스틱함수를 사용하는 이유 "

선형회귀를 사용하면 추정치의 일부는 [0, 1] 범위 밖에 놓일 수 있어 확률로 해석하기 어렵다는 단점이 있습니다. 오른쪽처럼 로지스틱 회귀를 사용하면 모든 확률값이 01사이에 있게 됩니다.

 

" 로지스틱 회귀계수 추정법 - 최대우도법 "

단순(다중)선형회귀에서는 회귀계수를 추정하기 위해 최소제곱법을 사용합니다.

이와 달리, 로지스틱 회귀에서는 회귀계수를 추정하기 위해 최대우도법을 사용합니다.

Likelihood Function은 아래와 같고, 이를 최대화하는 β0, β1을 추정합니다.

베르누이 확률분포(0또는 1의 값을 가지는 확률변수의 확률분포)를 이용하여 추정합니다.

" 다중 로지스틱 회귀 "

단순선형회귀와 마찬가지로 로지스틱 회귀도 입력변수가 여러 종류일 때로 확장이 가능합니다.

최대우도법을 사용하면 회귀계수의 추정이 가능합니다.

" 로지스틱 회귀 해석 "

로지스틱 회귀분석을 해석하는 방법은 Logit으로 해석하는 방법과 odds로 해석하는 방법이 있습니다.

 

아래의 예제는 웨이퍼가 불량일 확률에 영향을 주는 요인이 RF_impedance의 특정 summary변수와 CL2 Flow 특정 summary변수가 추가되었을 때 다중 로지스틱 회귀를 적용한 표입니다.

RF_impedance는 값이 높아질수록 불량일 확률(실제로는 logit)이 낮다는 결과가 도출됩니다.

 

- Logit : RF_impendance1단위 증가할 때 불량일 logit-0.0468 단위 증가한다.

- Odds : RF_impedance1단위 증가할 때 불량일 확률이 0.954(exp(-0.0468)) 증가한다.

 

 

머신러닝 인강 최강자를 만나고 싶으면!? https://bit.ly/3lZfGmn

LIST