[한국공공정책신문=김유리 기자]
◇ 교사가 있는 학습의 개념
교사가 있는 학습(Supervised learning)이란 컴퓨터 자체가 지표를 찾아내는 교사가 없는 학습에 대해서, 사전에 주어진 지표를 바탕으로 학습을 실시하는 수법을 교사가 있는 학습이라고 한다. 전형적인 것으로 들 수 있는 것이 회귀문제와 분류문제가 있다. 입력사례로부터 출력을 직접 예측하는 것을 회귀라고 하고, 클라스(class)는 분류라고 불리는 그룹으로 나누어 가는 것이다. 회귀의 예로는 내일 기온은 몇 도인가? A사 평균 주가는 얼마인가? 등과 같이 수치화되는 것이고, 분류의 예로는 스팸 메일인가 아닌가? 와 같은 둘의(binary) 값내지는 복수값으로 판정되게 된다.
◇ 교사가 있는 학습의 사례
첫째, 서포트 벡터 머신(SVM)이다. 클래스의 수가 2개인 문제에 이용되는 선형분류기로 한 클래스(class)의 모든 데이터 점을 다른 클래스의 모든 데이터 점에서 분리하는 최적의 초평면을 찾아 데이터를 분류한다. 여기서 말하는 ‘최적의’ 초평면이란 22개의 클래스 사이에 최대 마진(margin)을 가진 초평면을 말한다. 마진이란 초평면에 평행하고 초평면과 그 사이에 데이터 점이 없는 최대 폭의 평면과 할 수 있는 사이를 의미한다.
둘째, 베이지안 필터이다. 단순 베이즈 분류기를 응용한 것으로, 대상이 되는 데이터를 해석ㆍ학습하고 분류하기 위한 필터를 말한다. 초기 상태에서도 어느 정도의 배분은 가능하도록 초기 설정되어 있지만, 대상이 되는 데이터가 증가하면 정밀도가 높아지는 특징을 가지기 때문에, 스팸 메일 필터 등에도 이용되고 있다.
셋째, 결정목이다. 나무구조의 클래스 분류를 위한 모델로 루트 노드(route node)에서 비교를 시작한다. 각 노드에는 조건이 있고, 대상과 비교로 따라가야 할 자식노드가 정해지고, 자식노드에서도 더욱 분기를 반복하면서, 최종적으로 잎노드에 도달하면, 그 대상이 분류되어야 할 클래스를 알 수 있다고 하는 구조로 되어 있다. 결정목의 장점으로는 학습이 빠르고 규칙을 인간이 보기 쉽다는 점이 있지만, 예측 정확도는 그리 좋지 않다고 한다.
넷째, ROC 곡선이다. 다양한 방법으로 결정목을 생성하는데, 그것들은 실제로 얼마나 올바른 결과를 내고 있는지를 비교하는 방법으로 ROC 곡선이라고 불리는 곡선으로 표현할 수 있다. 원래는 제2차 대전 중에 미국의 레이더 연구에서 생겨난 방법이다.
다섯째, 홀드아웃 검증이다. 과학습을 막는 방법으로 데이터셋(data set)을 2개로 나누어 훈련 데이터와 테스트 데이터로 하고 테스트 데이터는 학습에는 사용하지 않고 검증에만 사용하는 방법으로 테스트 데이터에 사용되는 것은 전체 데이터의 3분의 1 이하인 경우가 많다. 이외에도 ‘K-분할 교차검증’, leave-one-out 교차검증(LOOCV) 등의 검증법이 있으며, 각각 특징이 있기 때문에 데이터 수와 정보의 종류 등 다양한 조건에 따라 사용되어야 하는 검증법은 달라진다.
◇ 신경망(neural network)
컴퓨터로 신경 세포(뇌)의 움직임을 재현하려고 한 것으로, 다른 신경세포로부터 받은 신호를 다음 신경 세포에 전달한다고 하는 구조를 수리 모델로 해, 복수 연결 구성된 네트워크이다. 신경망의 원류인 ‘단순 퍼셉트론’에서는 ‘활성화 함수’에 ‘스텝(단계) 함수’를 사용함으로써 선형의 분리밖에 할 수 없었던 반면, 활성화 함수에 시그모이드 함수 등과 소프트맥스 함수를 사용함으로써 클래스의 수가 2개 또는 복수의 분류를 도출할 수 있다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)








