LOESS(STL) 방법을 통한 계절적 추세 분해는 경제 및 환경 분석에 자주 사용되는 시계열 분해의 강력한 메소드입니다. STL 메소드는 로컬로 적합화된 회귀 모델을 사용하여 시계열을 추세, 계절 및 나머지 컴포넌트로 분할합니다.
STL에 대한 정보
모든 데이터셋에 STL을 적용할 수 있지만 데이터에 반복적인 시간 패턴이 있는 경우에만 의미 있는 결과가 반환됩니다(예시: 기온이 상대적으로 높은 월에 대기질이 감소하거나 매년 4분기에 온라인 쇼핑이 증가함). 패턴은 STL 결과에 계절적인 컴포넌트로 표시됩니다.
STL 알고리즘은 2개의 루프에서 LOESS를 사용하여 시계열에 대해 스무싱을 수행합니다. 내부 루프는 계절적 및 추세 스무싱 간에 반복되고 외부 루프는 이상치의 영향을 최소화합니다. 내부 루프 중 계절적 컴포넌트가 먼저 계산되고 추세 컴포넌트를 계산하기 위해 제거됩니다. 나머지는 시계열에서 계절적 및 추세 컴포넌트를 빼서 계산됩니다.
STL 분석의 세 가지 컴포넌트는 다음과 같이 원시 시계열과 릴레이트됩니다.
yi = si + ti + ri
여기서 각 항목 정보는 다음과 같습니다.
- yi = 포인트 i에서 시계열 값
- si = 포인트 i에서 계절적 컴포넌트 값
- ti = 포인트 i에서 추세 컴포넌트 값
- ri = 포인트 i에서 나머지 컴포넌트 값
예시
한 기상학자가 미국의 토네이도 빈도에 미치는 기후 변화의 영향을 연구하고 있습니다. 그녀는 STL을 사용하여 토네이도 발생 횟수의 시계열을 분해함으로써 계절성이 토네이도 발생 빈도에 미치는 영향과 토네이도 발생 빈도가 시간이 지남에 따라 증가했는지 여부를 결정합니다. 그런 다음 토네이도의 추세를 평균 지구 온도와 같은 다른 기후 추세와 비교하여 기후 변화가 토네이도 빈도 증가 요인인지 확인할 수 있습니다.
한 경제학자가 거주 지역에서 유가를 추적하고 시간의 경과에 따른 전반적인 가격 추세를 찾고 있습니다. 그는 유가가 여름에 상승하는 추세라는 것을 알고 있으므로 STL 분석을 사용하여 유가의 시계열을 분해하고 계절적 컴포넌트와 별도로 추세를 분석합니다.
계절적 컴포넌트
STL 결과의 계절적 컴포넌트는 선택한 계절성을 기반으로 데이터에 존재하는 반복적인 시간 패턴을 보여줍니다. 계절적인 패턴이 존재하는 경우 일반적으로 진동 또는 물결 패턴의 모습으로 나타납니다.
계절적 컴포넌트에 대한 스무싱은 각 하위 계열(주, 월, 분기, 연도)에 대해 개별적으로 수행됩니다. 예를 들어, 2015년 1월부터 2020년 12월까지 매일 수집된 데이터가 있는 데이터셋에서 월별 계절성이 있는 STL을 사용하는 경우 전체 연도의 1월에 수집된 모든 데이터에 대해 먼저 스무싱이 수행된 다음 전체 연도의 2월에 수집된 데이터에 대해 스무딩이 수행됩니다(모든 월의 스무싱이 수행될 때까지 반복됨). 그런 다음 하위 계열이 재결합되어 계절적 컴포넌트를 생성합니다.
예시
다음 예시에서는 미국 전역의 토네이도 발생 횟수를 이용한 STL 분석의 계절적 컴포넌트를 보여줍니다. 컴포넌트는 월별 계절성을 사용하여 계산되었으며 6월의 높은 횟수와 1월의 낮은 횟수 간에 변동됩니다. 시간이 지남에 따라 변동의 진폭이 증가하며 이는 시간이 지남에 따라 토네이도 빈도의 계절적 변화가 증가하고 있음을 의미합니다.
추세 컴포넌트
추세 컴포넌트는 내부 루프 중에 계산된 두 번째 컴포넌트입니다. 계절적 컴포넌트에 대한 값이 원시 데이터에서 빠지며 시계열에서 계절적 변동이 제거됩니다. 그런 다음 나머지 값에 LOESS를 적용하여 스무싱된 추세선을 생성합니다.
예시
다음 예시에서는 미국 전역의 토네이도 발생 횟수를 이용한 STL 분석의 추세 컴포넌트를 보여줍니다. 결과는 전반적으로 긍정적인 추세를 보여주며, 이는 시간이 지남에 따라 미국의 토네이도 발생 횟수가 증가하고 있음을 의미합니다.
나머지 컴포넌트
나머지 컴포넌트는 시계열에서 계절적 및 추세 컴포넌트의 값을 빼서 계산됩니다. 나머지 값은 데이터에 존재하는 노이즈의 양을 의미합니다. 0에 가까운 값은 계절적 및 추세 컴포넌트가 시계열을 정확하게 설명하는 반면, 나머지 값이 클수록 노이즈가 있음을 나타냅니다.
나머지 컴포넌트를 사용하여 데이터에서 다른 나머지 값보다 상대적으로 큰 양수 또는 음수 값으로 나타나는 이상치를 식별할 수도 있습니다.
예시
다음 예시에서는 미국 전역의 토네이도 발생 횟수를 이용한 STL 분석의 나머지 컴포넌트를 보여줍니다. 나머지 값은 상대적으로 작게 시작하여 나중에 더 커지며, 이는 시간이 지남에 따라 데이터의 노이즈 양이 증가했음을 나타냅니다. 또한 표시된 나머지 값은 2011년 4월의 이상치를 분명하게 보여줍니다.