1. 시계열자료
1) 개념
- 시간의 흐름에 따라 관찰된 값을 시계열 자료라고 칭함
- 시계열 데이터 분석을 통해 '미래의 값을 예측' 하고 경향, 주기, 계절성 등을 파악
- 시계열 데이터의 모델링은 다른 분석모형과 같이 탐색목적과 예측목적으로 나눌 수 있음
- 분석의 주목적은 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것
- 잡음(noise)는 무작위적인 변동이며, 원인을 알 수 없음
2) 자료 종류 : '정상성'을 기준으로 분류됨
① 비정상성 시계열 자료 : 다루기 어려운 자료로 대부분의 시계열자료가 이에 해당
② 정상성 시계열 자료: 비정상 시계열을 핸들링 통해 다루기 쉬운 시계열 자료로써 '변환' 한 자료
2. 정상성이란?
-시계열의 수준과 분산에 체계적인 변화 및 주기적 변동이 없다는 뜻으로, 미래는 확률적으로 과거와 동일함을 의미
- 시계열자료가 시간의 흐름에 따라 확률적 성질 및 특성이 변하지 않음을 의미
① 평균이 일정 : 평균이 일정하지 않은 경우 '차분'을 통해 정상화 가능
② 분산이 일정 : 분산이 일정하지 않은 경우 '변환'을 통해 정상화 가능
③ 공분산도 시차에만 의존하고, 실제 특정 시점 t나 s에 의존하지 않는 경우
*차분: 현시점 자료 - 전시점 자료 *일반차분: 바로 전 시점의 자료를 빼는 방법 *계절차분: 여러 시점 전의 자료를 빼는 방법으로 주로 계절성을 갖는 자료 정상화 할 때 사용 |
3. 시계열 자료 분석방법
1) 분석절차 (13회기출)
- 시간그래프 그리기
- 추세와 계절성 제거
- 잔차 예측
- 잔차에 대한 모델 적합
- 예측된 잔차에 추세와 계절성 더해 미래 예측
2) 분석방법
① 수학적 이론모형: 회귀분석, Box-Jeckins
② 직관적 방법: 지수평활법, 시계열분해법 -> 시간의 변동이 느린 데이터 분석에 활용
③ 장기예측: 회귀분석방법
④ 단기예측: Box-Jenkins, 지수평활법, 시계열분해법
3) 자료 형태에 따른 분석방법
① 일변량 시계열분석
- 주요 방법: Box-Jenkins, 지수평활법, 시계열분해법
- 시간(t)를 설명변수로두는 등 '하나의 변수'에 관심을 갖는 경우의 분석
② 다중 시계열분석
- 계량경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA
- 여러개의 시간(t)에 따른 변수들을 활용
*계량경제 모형: 시계열 데이터에 대한 회귀분석 (이자율, 인플레이션이 환율에 미치는 요인) |
4) 이동평균법
- 과거로부터 현재까지의 시계열자료를 대상으로 일정기간별 이동평균 계산 후 추세를 파악하여 다음 기간 예측
- 특정 기간에 속하는 시계열에 동일한 가중치를 부여 (과거치에 적용되는 가중치가 동일함)
5) 지수평활법
- 이동평균법과 달리, 모든 시계열 자료를 사용하여 평균 구함
-시간의 흐름에 따라 '최근 시계열'에 더 많은 가중치를 부여하여 미래 예측
-가중치의 역할을 하는건 지수평활계수(a)이며, 불규칙변동이 큰 시계열의 경우 지수평활계수는 작은 값 / 불규칙변동이 작은 시계열의 경우 지수평활계수는 큰값 적용
- 지수평활계수는 과거로 갈수록 지속적으로 감소 (최근 시계열에 더 많은 가중치 부여하기에)
4. 시계열모형
1) 자기회귀모형 (AR모형)
- 자기상관성(어떤 변수에 대해 이전의 값이 이후 값에 영향을 미치고 있는 상황) 을 시계열 모형으로 구성한 것
- 현시점의 자료가 P시점 전까지 유한개의 과거 자료로 설명될 수 있다
- 모형의 판단을 위해 ACF(자기상관함수)와 PACP(부분자기함수)를 활용
2) 이동평균모형 (MA모형)
- 시간이 지날수록 어떤 변수의 평균값이 지속적으로 감소/증가하는 경햐에 대한 이동평균을 시계열 모형으로 구성한 것
- 현 시점의 자료를 P시점 전까지 유한개수의 백색잡음들로 표현
- 언제나 정상성을 만족
자기회귀모형 | 이동평균모형 |
ACF빠르게감소 PACF 절단점이 존재 |
ACF절단점이 존재 PACF 빠르게 감소 |
3) 자기회귀누적이동평균모형 : ARIMA(p,d,q) 모형
- 비정상시계열모형으로, 차분이나 변환을 통해 AR모형/ MA모형/ 이 둘을 합친 ARMA 모형으로 정상화 가능
- p는 AR 모형 / q는 MA모형과 관련
p=0 이면, IMA(d,q) 모형이고 d번 차분하면 MA(q) 모형을 따름 d=0이면, ARMA(p,q) 모형이라 부르고 이 모형은 정상성을 만족 q=0이면, ARI(p,d) 모형이라 불고 d번 차분한 시계열이 AR(p) 모형을 따름 |
절단값: 처음으로 점선 안쪽으로 그래프가 들어온 구간 ARMA(p,q) 모델 - ARMA(p,0) = AR(p) 모형 : PACF값이 lag(p+1)에서 절단점 갖는다 - ARMA(0,q) = MA(q) 모형 : ACF값이 lag(q+1)에서 절단점 갖는다 * ACF의 절단값이 2라면, ARMA(0,1) = MA(1)모형이 선정 |
4) 분해시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 분해요소
① 경향(추세)요인: 자료가 오르거나 내리는 추세로 선형, 이차식형태, 지수적 형태
② 계절요인: 요일, 월, 사계절에 의한 변화 등 고정된 주기에 따라 자료가 변하는 경우
③ 순환요인: 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변하는 경우
④ 불규칙요인: 위 세가지 요인으로 설명할 수 없는 오차에 해당되는 원인
*참고하면 좋을 링크
[통계분석] 시계열 분석
목차 01 시계열 자료 ∙시간의 흐름에 따라 관측된 데이터 ∙시계열 분석을 위해서는 정상성을 만족해야 함 02 정상성 ∙시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것
paper-garden.tistory.com
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-5. 정형데이터마이닝 (2) 분류분석 (0) | 2022.10.02 |
---|---|
[3과목] 3-5 정형 데이터마이닝 (1) 개요 (0) | 2022.10.02 |
[3과목] 3-4. 통계분석 (3) 회귀분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (2) 기초통계분석 (0) | 2022.10.01 |
[3과목] 3-4. 통계분석 (1)통계분석 이해 (1) | 2022.09.25 |