시간 분해 및 예측은 시계열 그래프를 추세, 계절, 나머지 구성 요소로 분할합니다.
시간 분해 및 예측은 LOESS(STL) 메소드를 통해 계절적 추세 분해를 적용하여 시계열의 컴포넌트를 계산합니다.
예시
환경 단체에서 시간에 따른 대기질 변화에 대해 조사하고 있습니다. 시간 분해를 사용하여 계절성이 대기질에 미치는 영향 및 시간이 지남에 따라 대기질이 개선되고 있는지 아니면 나빠지고 있는지를 판단할 수 있습니다. 예측을 사용하여 향후 대기질 값을 예측할 수 있습니다.
시간 분해 실행
시간 분해를 수행하려면 다음 단계를 완료합니다.
- 시간 분해를 수행할 데이터셋을 사용하여 맵, 차트, 테이블을 생성합니다.
- 작업 버튼 을 클릭합니다.
- 다음 중 하나를 수행합니다.
- 시계열 그래프 카드인 경우 시간 분석 탭에서 이동할 필요가 없습니다.
- 다른 차트 유형의 카드거나 테이블 카드인 경우 분석 창에서 변경된 내용을 클릭합니다.
- 카드가 맵인 경우 답변 찾기 탭을 클릭하고 어떻게 변경되었나요?를 클릭합니다.
- 시간 분해를 클릭합니다.
- 레이어 선택에서는 시간 분해를 수행하는 데 사용할 데이터셋을 선택합니다.
- 날짜/시간 필드 선택에서는 타임라인에 사용할 날짜/시간 필드를 선택합니다.
- 추가 옵션을 확장하고 숫자 필드 선택, 계절성에 맞게 조정 및 필요한 경우 창 크기 선택 매개변수 값을 입력합니다.
자세한 내용은 아래의 사용 참고사항 섹션을 참조하세요.
- 필요에 따라 예측 보기를 선택하여 예측된 값을 타임라인에 포함할 수 있습니다.
예측 보기를 선택한 경우 예측 범위 주기 설정 매개변수를 조정하여 예측에 얼마나 많은 주기를 포함할지 지정할 수도 있습니다. 주기의 기본 숫자는 2입니다.
- 실행을 클릭합니다.
예측 기능 실행
예측을 수행하려면 다음 단계를 완료합니다.
- 예측을 수행할 데이터셋을 사용하여 맵, 차트, 테이블을 생성합니다.
- 작업 버튼 을 클릭합니다.
- 다음 중 하나를 수행합니다.
- 시계열 그래프 카드인 경우 시간 분석 탭에서 이동할 필요가 없습니다.
- 다른 차트 유형의 카드거나 테이블 카드인 경우 분석 창에서 변경된 내용을 클릭합니다.
- 카드가 맵인 경우 답변 찾기 탭을 클릭하고 변경된 내용을 클릭합니다.
- 예측을 클릭합니다.
- 레이어 선택에서는 예측을 수행하는 데 사용할 데이터셋을 선택합니다.
- 날짜/시간 필드 선택에서는 타임라인에 사용할 날짜/시간 필드를 선택합니다.
- 추가 옵션을 확장하고 숫자 필드 선택, 계절성에 맞게 조정 및 필요한 경우 창 크기 선택 매개변수 값을 입력합니다.
자세한 내용은 아래의 사용 참고사항 섹션을 참조하세요.
- 예측 범위 주기 설정 매개변수 값을 조정하여 예측에 포함할 주기 수를 지정합니다.
주기의 기본 숫자는 2입니다.
- 실행을 클릭합니다.
사용 참고사항
시간 분해 및 예측은 답변 찾기 탭 또는 시계열 그래프에 있는 시간 분석 탭에서 변경된 내용 아래에 있는 작업 버튼 을 사용하여 접근할 수 있습니다. 입력은 날짜/시간 필드를 포함하는 데이터셋이어야 하며 최소 1년 치의 데이터가 있어야 합니다. 자세한 내용은 아래의 시간 분해 및 예측 작동 방식 섹션을 참고하세요.
날짜/시간 필드 선택 매개변수를 사용하여 시간 분해가 적용될 날짜/시간 필드를 선택합니다.
추가 옵션을 확장하여 숫자 필드 선택, 계절성에 맞게 조정, 창 크기 선택 매개변수에 접근합니다. 다음 테이블에는 이러한 매개변수와 각각의 기본값이 요약되어 있습니다.
매개변수 | 설명 | 기본 값 |
---|---|---|
숫자 필드 선택 | 시계열에 대한 각 관측의 값을 나타내는 필드입니다. 예를 들어, 시간에 따른 전 세계 평균 기온의 시계열을 분해하는 경우, 숫자 필드 선택 매개변수에 온도 필드를 사용합니다. | 없음. 각 포인트의 값은 개수를 따릅니다. |
계절성에 맞게 조정 | 계절성은 계절적인 구성 요소의 계산 방식을 결정하는 데 사용됩니다. 다음과 같은 계절성 옵션이 제공됩니다.
| 없음. 데이터에 따라 적절한 계절성을 선택합니다. |
창 크기 선택 | 창 크기는 스무싱 계산에서 사용되는 데이터 포인트의 백분율을 결정합니다. | 50%. |
시간 분해에 대해 예측 보기를 선택하면 계절적 구성 요소 및 계절성에 맞게 조정된 구성 요소에 따라 예측된 향후 값을 표시하는 출력 시계열을 생성할 수 있습니다. 예측에서 주기의 횟수는 예측 범위 주기 설정 매개변수를 따릅니다. 기본값은 2입니다. 예측이 항상 활성화되어 있으므로 예측 보기 매개변수를 사용할 수 없습니다.
시간 분해 및 예측 결과에는 STL 데이터셋과 예측 - STL 데이터셋(예측 보기가 활성화되어 있는 경우 시간 분해에만 포함됨)이 포함됩니다.
STL 데이터셋에는 원시 데이터에 대한 필드(시계열을 분해하는 데 사용되는 개수 또는 숫자 필드 중 하나를 따름), 4개의 구성 요소(계절, 추세, 나머지 및 계절적으로 조정됨), 그리고 기존 날짜/시간 필드가 포함됩니다.
예측 - STL 데이터셋에는 기존 날짜/시간 필드에 더해 원시 데이터에 대한 필드(시계열을 분해하는 데 사용되는 개수 또는 숫자 필드 중 하나를 따름), 예상, 그리고 최대 및 최소 예측 간격(80% 및 95%)이 포함됩니다.
시간 분해 및 예측 사용 방법
시간 분해 및 예측은 STL 방법을 사용하여 시계열 그래프를 계절, 추세, 나머지 구성 요소로 분할합니다. STL 알고리즘의 데이터 요구 사항은 계절적인 구성 요소를 설명하는 데 사용되는 계절성을 기반으로 합니다.
계절성
STL에서 계절성(주기성이라고도 함)은 시계열의 계절적인 영향을 조정하는 데 사용됩니다. 예를 들어, 대기질은 연간 주기에 따라 겨울에는 대기질이 개선되고 여름에는 나빠집니다. 월별 계절성을 통해 대기질 데이터를 분해하면 대기질 개선 및 악화의 반복 주기에 대해 시계열을 조정하여 시간에 따른 대기질의 전반적인 추세를 더욱 잘 파악할 수 있습니다.
계절성은 매주, 매월, 분기별, 매년이 될 수 있습니다. 시간 분해 및 예측을 위한 데이터 요구사항은 사용되는 계절성에 따라 다릅니다.
모든 계절성 옵션에서 데이터는 하위 시리즈로 분할됩니다. 시간 분해 또는 예측을 사용하려면 데이터셋에서 모든 하위 시리즈가 최소 한 번 발생해야 합니다.
다음 테이블에는 계절성 옵션과 각각에 대한 하위 시리즈 및 데이터 요구사항이 요약되어 있습니다.
계절성 | 하위 시리즈 | 데이터 요구 사항 |
---|---|---|
매주 | 1주 차~52주 차. 예를 들어, 1월 1일~1월 7일은 1주 차, 1월 8일~1월 14일은 2주 차입니다. | 주마다 최소 1개의 데이터 포인트가 있는 최소 52주 치의 데이터가 필요합니다. |
매월 | 1월~12월. | 달마다 최소 1개의 데이터 포인트가 있는 최소 12개월 치의 데이터가 필요합니다. |
분기별 | 1분기~4분기. | 분기마다 최소 1개의 데이터 포인트가 있는 최소 4분기 치의 데이터가 필요합니다. |
매년 | 개별 연도. 예를 들어, 데이터셋에 2015년에 시작하여 2020년에 끝나는 데이터가 포함되어 있는 경우, 하위 시리즈는 2015년, 2016년, 2017년, 2018년, 2019년 및 2020년이 됩니다. | 연도마다 최소 1개의 데이터 포인트가 있는 최소 4년 치의 데이터가 필요합니다. |
계절성 예시
2015년 1월부터 2020년 12월까지 매일 수집된 데이터가 있는 데이터셋에 대해 주간 계절성을 사용하여 시간 분해 또는 예측을 실행하려는 경우를 가정해 보겠습니다. 하지만 데이터를 수집하는 시스템이 업데이트 및 유지 관리를 위해 매년 1월 1일부터 1월 10일까지 중단되므로 해당 기간에는 데이터가 수집되지 않습니다. 주간 계절성을 사용하려면 매주 최소 1개의 데이터 발생이 데이터에 포함되어야 합니다. 1주 차(1월 1일~1월 7일)는 데이터에서 완전히 누락되었으므로, 데이터셋에서 주간 계절성을 사용할 수 없습니다. 다른 모든 계절성 옵션은 최소 데이터 요구 사항에 부합하며 월별, 분기별 및 연간 하위 시리즈 각각에 대해 최소 1번의 발생이 있기 때문에 데이터셋과 호환됩니다.
이 데이터셋이 주간 계절성과 호환되도록 하기 위해, 중단 일정이 2021년부터 1월 2일로 변경됩니다. 2021년 1월 1일에 수집된 데이터는 1주 차 하위 시리즈의 일부이므로 이제 데이터셋의 각 하위 시리즈에 최소 1개의 데이터 포인트가 있습니다.
비고:
하위 시리즈당 1개의 데이터 포인트 요구 사항은 연간 요구 사항이 아니라 전반적인 요구 사항입니다. 따라서 2015년부터 2020년까지 1주 차에 대해 사용 가능한 데이터가 없어도 2021년 1월 2일의 데이터 포인트가 요구 사항을 충족합니다.
예측 구간
예측 구간은 Hyndman 및 Athanasopoulos(2018, 7장)의 다음 방정식을 통해 예측으로 계산됩니다.
ŷT+h|T ± cσh
여기서 각 항목 정보는 다음과 같습니다.
- ŷt=시간 t에서의 예측 분포의 평균값
- ŷT+h|T=h 예측 수평선 주기에 대한 시간 T까지 ŷt의 누적 예측
- c=커버리지 확률
- σh=예측 분산의 제곱근
제한사항
시간 분해 및 예측은 시간 전용 필드(시간 컴포넌트가 있지만 날짜가 없는 날짜/시간 필드)를 지원하지 않습니다.
참조
Hyndman, Rob J. 및 George Athanasopoulos. 2018. 예측: 원칙 및 실습. 2nd ed. Melbourne, Australia: OTexts. OTexts.com/fpp2.