[한국공공정책신문=김유리 기자]
◇ 로지스틱 회귀의 개념
로지스틱 회귀(Logistic regression)란 다변량 해석의 수법의 하나이며, 또 기계학습 수법의 교사가 있는 학습의 하나다. 1958년에 고안된 고전적인 기법이며, 주로 선형 분리 불가능한 분류 문제에서 사용된다.
*주) 로지스틱 회귀(Logistic regression)는 베르누이 분포를 따르는 변수의 통계적 회귀 모델의 일종이다. 연결함수로서 로짓을 사용하는 일반화 선형모델(GLM)의 일종이기도 하다. 1958년에 데이비드 콕스가 발표했다. 확률의 회귀로 통계학 분류에 주로 쓰인다.
◇ 로지스틱 회귀의 해석
대표적인 다변량 해석 기법이라면 목적변수(objective variable / 종속변수)가 수량 데이터인 다중 회귀 분석이다. 다중 회귀분석과 달리 로지스틱(logistics) 회귀의 목적변수는 다군의 카테고리 데이터이고 설명변수는 수량 데이터가 된다. 이 특징에서 로지스틱 회귀는 판별 분석과 마찬가지로 양적 변수에서 질적 변수를 예측할 수 있다. 출력의 확률 분포는 로지스틱함수(시그모이드 함수)로 표시된다.
*주) 다중 회귀분석은 다변량 해석의 하나로 회귀분석에서 독립변수가 2개 이상(2차원 이상)인 것으로, 독립변수가 1개인 것을 단회귀분석이라고 한다.
◇ 로지스틱 회귀의 최급강하법
학습을 하려면 예측값과 실제값의 차이인 오차를 최소화해야 한다. 로지스틱 회귀의 결정 경계를 구하려면 오차의 함수인 비용함수의 최소 값을 최급강하법으로 구한다. 최급강하법보다 빠른 방법은 다음과 같다. ① 켤레경사법, ② BFGS법, ③ L-BFGS법 등이 알려져 있다.
◇ 로지스틱 회귀의 최적화 문제
로지스틱 회귀는 모델적으로는 단순 퍼셉트론과 동일하다. 예측값과 실제값은 파라미터(Parameter)를 결정하는 최적화 문제로 구별된다. 즉 좌표강하법이나 준뉴턴법 등을 사용하는 것은 단순 퍼셉트론(simple-perceptron), 확률적 경사강하법(Gradient Descent)을 사용하는 것은 로지스틱 회귀라고 불린다.
◇ 로지스틱 회귀의 용도
로지스틱 회귀는 단적으로 말하면, ‘어떤 사건의 발생률’을 판별하는 분석이다. 일반성이 매우 높기 때문에 비즈니스나 의료, 심리학 등 다양한 분야에서 활용되고 있다. 예컨대, 마케팅 분야에서 2값 로지스틱 회귀는 다이렉트 마케팅에서 많이 사용한다. 다이렉트 메일에 대한 회신을 사건으로 정의함으로써 그 캠페인의 반응률을 알 수 있다. 스팸 메일 판별에도 사용한다. 또한 고객의 구매 행동을 속성 데이터에서 예측할 수 있다. 의료 현장에서는 환자의 각종 검사 데이터를 통해 질환 유무를 판정할 수 있다. 또한 기상 관측 데이터에서 토사 재해 발생을 예측하거나 질병 발생률을 예측하는 등 위험 회피에도 활용되고 있다.
최근 등장한 강력한 분류기에는 서포트 벡터 머신(support-vector machine, SVM)이 있다. 로지스틱 회귀와 서포트 벡터 머신(SVM)의 구분은 데이터 구조에 의존한다. 구체적으로 서포트 벡터 머신이 어려워하는 대규모 데이터의 경우나 설명변수(explanatory variable)가 데이터 샘플 수보다 많은 경우에는 로지스틱 회귀는 서포트 벡터 머신(SVM)에 비해 여전히 유용하다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27책
∙ 일본(와세다대),중국(복단대·화동정법대)








