ADsP/3과목

[3과목] 3-4.통계분석 (4) 시계열분석

RECORD WHO (레코드후) 2022. 10. 1. 21:49

1. 시계열자료

1) 개념

- 시간의 흐름에 따라 관찰된 값을 시계열 자료라고 칭함

- 시계열 데이터 분석을 통해 '미래의 값을 예측' 하고 경향, 주기, 계절성 등을 파악

- 시계열 데이터의 모델링은 다른 분석모형과 같이 탐색목적과 예측목적으로 나눌 수 있음

- 분석의 주목적은 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것

- 잡음(noise)는 무작위적인 변동이며, 원인을 알 수 없음

 

2) 자료 종류 : '정상성'을 기준으로 분류됨

① 비정상성 시계열 자료 : 다루기 어려운 자료로 대부분의 시계열자료가 이에 해당

② 정상성 시계열 자료: 비정상 시계열을 핸들링 통해 다루기 쉬운 시계열 자료로써 '변환' 한 자료

 

2. 정상성이란? 

-시계열의 수준과 분산에 체계적인 변화 및 주기적 변동이 없다는 뜻으로, 미래는 확률적으로 과거와 동일함을 의미

- 시계열자료가 시간의 흐름에 따라 확률적 성질 및 특성이 변하지 않음을 의미 

평균이 일정 : 평균이 일정하지 않은 경우 '차분'을 통해 정상화 가능

분산이 일정 : 분산이 일정하지 않은 경우 '변환'을 통해 정상화 가능

공분산도 시차에만 의존하고, 실제 특정 시점 t나 s에 의존하지 않는 경우

*차분: 현시점 자료 - 전시점 자료
*일반차분: 바로 전 시점의 자료를 빼는 방법
*계절차분: 여러 시점 전의 자료를 빼는 방법으로 주로 계절성을 갖는 자료 정상화 할 때 사용

3. 시계열 자료 분석방법

1) 분석절차 (13회기출)

- 시간그래프 그리기 

- 추세와 계절성 제거

- 잔차 예측

- 잔차에 대한 모델 적합

- 예측된 잔차에 추세와 계절성 더해 미래 예측

 

2) 분석방법

① 수학적 이론모형: 회귀분석, Box-Jeckins

② 직관적 방법: 지수평활법, 시계열분해법 -> 시간의 변동이 느린 데이터 분석에 활용

③ 장기예측: 회귀분석방법

④ 단기예측: Box-Jenkins, 지수평활법, 시계열분해법

 

3) 자료 형태에 따른 분석방법

일변량 시계열분석 

- 주요 방법: Box-Jenkins, 지수평활법, 시계열분해법

- 시간(t)를 설명변수로두는 등 '하나의 변수'에 관심을 갖는 경우의 분석

다중 시계열분석

- 계량경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA 

- 여러개의 시간(t)에 따른 변수들을 활용

*계량경제 모형: 시계열 데이터에 대한 회귀분석 (이자율, 인플레이션이 환율에 미치는 요인) 

 

4) 이동평균법 

- 과거로부터 현재까지의 시계열자료를 대상으로 일정기간별 이동평균 계산 후 추세를 파악하여 다음 기간 예측

- 특정 기간에 속하는 시계열에 동일한 가중치를 부여 (과거치에 적용되는 가중치가 동일함) 

 

5) 지수평활법 

- 이동평균법과 달리, 모든 시계열 자료를 사용하여 평균 구함 

-시간의 흐름에 따라 '최근 시계열'에 더 많은 가중치를 부여하여 미래 예측

-가중치의 역할을 하는건 지수평활계수(a)이며, 불규칙변동이 큰 시계열의 경우 지수평활계수는 작은 값 / 불규칙변동이 작은 시계열의 경우 지수평활계수는 큰값 적용

- 지수평활계수는 과거로 갈수록 지속적으로 감소 (최근 시계열에 더 많은 가중치 부여하기에) 

 

4. 시계열모형

1) 자기회귀모형 (AR모형) 

- 자기상관성(어떤 변수에 대해 이전의 값이 이후 값에 영향을 미치고 있는 상황) 을 시계열 모형으로 구성한 것

- 현시점의 자료가 P시점 전까지 유한개의 과거 자료로 설명될 수 있다

- 모형의 판단을 위해 ACF(자기상관함수)와 PACP(부분자기함수)를 활용

 

2) 이동평균모형 (MA모형)

- 시간이 지날수록 어떤 변수의 평균값이 지속적으로 감소/증가하는 경햐에 대한 이동평균을 시계열 모형으로 구성한 것

- 현 시점의 자료를 P시점 전까지 유한개수의 백색잡음들로 표현

- 언제나 정상성을 만족

자기회귀모형 이동평균모형
ACF빠르게감소
PACF 절단점이 존재
ACF절단점이 존재
PACF 빠르게 감소

 

3) 자기회귀누적이동평균모형 : ARIMA(p,d,q) 모형

- 비정상시계열모형으로, 차분이나 변환을 통해 AR모형/ MA모형/ 이 둘을 합친 ARMA 모형으로 정상화 가능

- p는 AR 모형 / q는 MA모형과 관련

p=0 이면, IMA(d,q) 모형이고 d번 차분하면 MA(q) 모형을 따름
d=0이면, ARMA(p,q) 모형이라 부르고 이 모형은 정상성을 만족 
q=0이면, ARI(p,d) 모형이라 불고 d번 차분한 시계열이 AR(p) 모형을 따름 

 

절단값: 처음으로 점선 안쪽으로 그래프가 들어온 구간


ARMA(p,q) 모델
- ARMA(p,0) =  AR(p) 모형 : PACF값이 lag(p+1)에서 절단점 갖는다
- ARMA(0,q) = MA(q) 모형 : ACF값이 lag(q+1)에서 절단점 갖는다

* ACF의 절단값이 2라면, ARMA(0,1) = MA(1)모형이 선정

 

4) 분해시계열

- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법 

- 분해요소

① 경향(추세)요인: 자료가 오르거나 내리는 추세로 선형, 이차식형태, 지수적 형태

② 계절요인: 요일, 월, 사계절에 의한 변화 등 고정된 주기에 따라 자료가 변하는 경우 

③ 순환요인: 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변하는 경우

④ 불규칙요인: 위 세가지 요인으로 설명할 수 없는 오차에 해당되는 원인 

 


*참고하면 좋을 링크

 

 

[통계분석] 시계열 분석

목차 01 시계열 자료 ∙시간의 흐름에 따라 관측된 데이터 ∙시계열 분석을 위해서는 정상성을 만족해야 함 02 정상성 ∙시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것

paper-garden.tistory.com