[한국공공정책신문=김유리 기자]
◇ 시계열 분석의 개념
시계열 분석(Time series analysis)이란 다양한 분석에서 사용하는 많은 데이터는 측정 대상이 되는 데이터 그 자체와는 별도로 측정된 시간의 정보를 세트로 보유하고 있는 경우도 많아 시간에 관한 데이터가 있다는 것만으로 이것들은 모두 시계열 데이터라고 생각하기 쉽다. 그러나 실제로 시계열 데이터란 어떤 ‘일정한 간격’으로 측정된 결과의 모임을 말한다. 즉, 일정한 간격이 아니라 발생한 타이밍에 측정된 데이터는 ‘점과정 데이터’라고 부르며, 시계열 데이터와는 명확하게 구별된다. 그렇다면 양자는 무엇이 다른가 하면, 시계열 데이터는 이번 측정치와 지난 회(다음 회)의 측정치를 연결해 변화의 경위를 예상하는 그래프가 되는데 반하여, ‘점과정 데이터’는 어디까지나 이산(discrete)사건에서 그 시점의 측정치이므로, 그 값만큼의 긴 선이 그어질 뿐, 옆의 측정치와 비교는 실시하지 않는다.
◇ 시간 축에서 바뀌는 데이터
시간 축에서 바뀌는 데이터는 다음과 같다. ① 추세변동 : 장기적으로 봤을 때 상승추세인가, 하강추세인가를 나타낸다. ② 순환변동 : 어느 일정기간 동안 주기성이 있는 것 ③ 계절변동 : 1년 내내 각 계절의 변화 패턴을 나타내는 것 ④ 불규칙변동 : 천변지이 등 예상외 변이를 나타내는 것이다. 위와 같은 것은 독립적으로 나타나는 것이 아니라 네 가지가 각각 복합되어 일어난다. 누계(총합계)하는 것이 좋은지, 합산하는 것이 좋은지 등은 어려운 문제지만 4가지 요인으로 변동하고 있다는 것은 알아두어야 한다.
시계열 데이터에서 추세를 읽는 목적으로 가장 많은 것이 시간 축을 따라 어떤 수치가 변해가는 경향을 이해하는 것이고 앞으로 일어날 일을 예측하는 것이다. 즉, ‘이 주기적인 변화가 앞으로도 반복된다면 지금은 이렇지만 분명 가까운 미래에 이렇게 될 것’이라는 것을 예측함으로써 비즈니스 등에서 선제적으로 액션을 할 수 있는 것이다. 이런 경우 자주 사용되는 수법으로 ‘이동평균법’과 ‘지수평활법’이 있다.
◇ 이동평균법
예컨대, 월 매출액 추이가 4월에 90만, 5월에 100만, 6월에 120만, 7월에 110만이라고 했을 때, 8월의 예상은 최근 3개월의 평균을 따서(100+120+110)/3=110만이 되고, 최근 2개월의 경우는(120+110)/2=115만이다. 이동평균법 특징은 아래와 같다. ① 시계열 데이터를 예측할 때는 선행하는 수기분이의 관측 데이터가 필요 ② 평균하는 기수가 많을수록 평활화 된다.
이처럼 계절성 경향이 없는 데이터의 경우는 평균하는 기수를 짧게 하고 데이터가 무작위적인 변동을 포함하고 있다면 평균하는 기수를 많이 하면 된다. 반대로, 어떠한 패턴의 변화를 수반해 변동하고 있다면 그 변화에 대응시킬 수 있도록 평균하는 기의 수는 적은 것이 좋다. 그리고 보다 많은 무작위적인 변동 제거를 하고 싶다면, 이동 평균을 길게 하는 것이 좋다.
◇ 지수 평균법
이동평균법은 선행하는 몇기의 데이터가 필요하며, 선행하는 몇 기의 데이터가 동일한 가중치로 취급되고 있기 때문에 그 데이터가 가장 최근 것인지 오래전 데이터인지 알 수 없다. 거기서, 가장 최근 데이터일수록 신뢰할 수 있는 값으로 가장 최근 데이터일수록 높은 가중치를 부여해 평활화를 실시하는 방법이 지수평활법이다.
지수평활법에 의한 예측값은 다음 식으로 나타낼 수 있다. 즉, 예측치 = α×전회 실적치+(1-α)×전회 예측치 = 전회 예측치+α×(전회 실적치-전회 예측치)이다. 여기서 α는 중량이라고 불리며, 0<α<1의 범위에서 설정한다. α가 1에 가까울수록 직전치를 중시하고 0에 가까울수록 과거의 경과를 중시하게 되지만 α의 값은 과거 데이터 축적 등에 따라 예측치와 실적치 예측 오차가 최소가 되도록 설정한다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)








