ARIMA 

- 자기회귀 누적 이동 평균 (Autoregressive Integrated Moving Average)의 약자

- 시계열 데이터의 과거 값과 오류를 사용하여 미래 값을 예측

- 이 모델은 자기회귀(AR), 차분(I), 이동평균(MA) 세 가지의 구성 요소로 이루어져 있음.

 

자기회귀(AR)

'자기회귀'는 과거의 값들이 미래 값에 어떤 영향을 미치는지를 설명한다.

예를 들어, 지난 주의 판매량이 이번 주의 판매량에 영향을 미치는 경우, 이는 자기 회귀 관계에 해당한다.

AR 부분에서는 'p'라는 파라미터를 사용하는데, 이는 과거 데이터 포인트 중 얼마나 많은 것을 고려할 것인지를 결정한다.

 

차분(I)

'차분'은 비정상적인 시계열 데이터를 정상적인 상태로 만들기 위해 사용된다.

비정상 시계열은 평균, 분산 등이 시간에 따라 변하는 특성을 가진다.

차분은 이러한 데이터의 추세나 계절성을 제거하여 시간에 따라 일정한 수준을 유지하도록 한다.

 

이동평균(MA)

'이동평균' 부분은 과거 예측 오차가 미래 값에 어떻게 영향을 미치는지를 나타낸다. 

MA에서는 'q'라는 파라미터를 사용하여 과거 예측 오차 중 몇 개를 고려할 것인지를 결정한다. 

model = ARIMA(train_data['평균기온'], order = (4, 3, 2))

 

위 코드는 ARIMA 모델을 초기화한다. 

여기서 train_data['평균기온']은 모델에 사용할 시계열 데이터이다.

order = (4, 3, 2)는 ARIMA 모델의 세 가지 주요 파라미터를 설정한다.

4, 3, 2는 각각 p,q,d를 의미하며

p는 자기회귀 부분의 차수, d는 차분의 차수, q는 이동평균 부분의 차수를 의미한다. 

 

 

시계열 데이터의 summary()

1. Log Likelihood

: 모델이 데이터를 얼마나 잘 적합하는지를 나타내는 지표, 이 값이 클수록 모델이 데이터를 더 잘 설명한다는 뜻 

 

2. AIC / BIC

: 모델의 적합도를 평가하고 모델 간 비교를 할 때 사용되는 지표이다. 낮은 값일 수록 모델의 적합성이 더 높음을 의미.

 

3. coef

: 이 계수는 AR과 MA 파라미터의 영향력을 나타낸다.

: 예를 들어, 하나의 계수가 3.21이라면, 계수가 양수이고 따라서 그것의 지연(lag) 값은 현재 값에 긍정적인 영향을 미친다는 뜻이다. 즉, 과거의 값이 높으면 현재 값도 높을 것으로 예상된다는 뜻이다.

 

4. P > |z|

: 각 계수의 통계적 유의미함을 나타내는 p-값입니다. 일반적으로 이 값이 낮으면 (예: 0.05 이하), 해당 계수가 통계적으로 유의미하다고 할 수 있다. 

 

5. Ljung-Box / Jarque-Bear / Heteroskedasticity(이분산성)

: 이 테스트들은 각각 잔차가 무작위 노이즈인지, 정규분포를 따르는지, 등분산성을 가지는지 평가한다.

 

6. Prob(Q, JB, H)

: p-값들이 낮다면(0.05 또는 0.01이하), 잔차가 무작위 노이즈의 특성을 가지며, 정규분포를 따르고, 시차에 따라 일정한 분산을 가진다고 볼 수 있다. 

 

+ Recent posts