時間分解および予測は、時系列グラフをトレンド、季節性、および残差の各コンポーネントに分割します。
時間分解および予測では、LOESS を使用した季節およびトレンドの分解 (STL) 法を使用して、時系列のコンポーネントを計算します。
例
ある環境保護団体が時間の経過に伴う大気環境の変化を調査しています。 時間分解を使用して、季節性が大気環境にもたらす影響を特定し、時間の経過に伴って大気環境が良くなっているか悪くなっているかを判断します。 予測を使用して、今後の大気環境の値を予測します。
時間分解の実行
時間分解を実行するには、次の手順に従います。
- 予測の実行に使用するデータセットで、マップ、チャート、またはテーブルを作成します。
- [アクション] ボタン をクリックします。
- 次のいずれかを実行します。
- 時系列グラフ カードの場合は、[時間解析] タブを選択します。
- 別のチャート タイプのカードまたはテーブル カードの場合は、[分析] ウィンドウの [どのように変化しましたか?] をクリックします。
- マップ カードの場合、[回答の検索] タブをクリックし、[どのように変化しましたか?] をクリックします。
- [時間分解] をクリックします。
- [レイヤーの選択] で、時間分解の実行に使用するデータセットを選択します。
- [日付/時間フィールドの選択] で、タイムラインに使用する日付/時間フィールドを選択します。
- [その他のオプション] を展開し、必要に応じて [数値フィールドの選択]、[季節性に合わせて調整]、および [ウィンドウ サイズの選択] パラメーターの値を入力します。
詳細については、以下の「使用上の注意」のセクションをご参照ください。
- 必要に応じて、[予測の表示] を選択して予測値をタイムラインに挿入します。
[予測の表示] を選択した場合は、[予測期間サイクルの設定] パラメーターを調整して、予測に含めるサイクルの数を指定することもできます。 サイクルのデフォルト数は 2 です。
- [実行] をクリックします。
予測機能の実行
予測を実行するには、次の手順に従います。
- 予測を実行するデータセットを使用して、マップ、チャート、またはテーブルを作成します。
- [アクション] ボタン をクリックします。
- 次のいずれかを実行します。
- 時系列グラフ カードの場合は、[時間解析] タブを選択します。
- 別のチャート タイプのカードまたはテーブル カードの場合は、[分析] ウィンドウの [どのように変化しましたか?] をクリックします。
- マップ カードの場合、[回答の検索] タブをクリックし、[どのように変化しましたか?] をクリックします。
- [予測] をクリックします。
- [レイヤーの選択] で、予測の実行に使用するデータセットを選択します。
- [日付/時間フィールドの選択] で、タイムラインに使用する日付/時間フィールドを選択します。
- [その他のオプション] を展開し、必要に応じて [数値フィールドの選択]、[季節性に合わせて調整]、および [ウィンドウ サイズの選択] パラメーターの値を入力します。
詳細については、以下の「使用上の注意」のセクションをご参照ください。
- [予測期間サイクルの設定] パラメーターの値を調整して、予測に含めるサイクルの数を指定します。
サイクルのデフォルト数は 2 です。
- [実行] をクリックします。
使用上の注意
時間分解および予測にアクセスするには、[アクション] ボタン から、[回答の検索] タブの [どのように変化しましたか?] を使用するか、時系列グラフの [時間解析] タブを使用します。 日付/時間フィールドを含む 1 つのデータセットを入力し、そのデータセットには少なくとも 1 年分のデータが存在する必要があります。 詳細については、以下の「時間分解および予測の機能」セクションをご参照ください。
[日付/時間フィールドの選択] パラメーターを使用して、時間分解が適用される日付/時間フィールドを選択します。
[その他のオプション] を展開し、[数値フィールドの選択]、[季節性に合わせて調整]、および [ウィンドウ サイズの選択] パラメーターを表示します。 これらのパラメーターとそのデフォルト値を次の表に示します。
パラメーター | 説明 | デフォルト値 |
---|---|---|
数値フィールドの選択 | 各観測データの値を時系列で示すフィールド。 たとえば、時間の経過に伴う地球の平均気温の時系列を分解する場合は、[数値フィールドの選択] パラメーターで温度フィールドを使用します。 | なし。 各ポイントの値は数に基づきます。 |
季節性に合わせて調整 | 季節性を使用すると、季節性コンポーネントの計算方法を設定できます。 次の季節性オプションが用意されています。
| なし。 データに基づいて適切な季節性を選択します。 |
ウィンドウ サイズの選択 | ウィンドウ サイズにより、スムージング計算で使用されるデータ ポイントの割合が求められます。 | 50% |
時間分解では、[予測の表示] を選択して、季節性コンポーネントと季節性に合わせて調整されたコンポーネントに基づいて、予測された将来値を示す出力時系列を作成します。 予測に含まれるサイクルの数は、[予測期間サイクルの設定] パラメーターに基づいて算出されます。 デフォルト値は 2 です。 [予測の表示] パラメーターは常に有効になっているため、予測には使用できません。
時間分解と予測の結果には、STL および Forecast - STL という 2 つのデータセットが含まれます ([予測の表示] が有効になっている場合は、時間分解にのみ含まれます)。
STL データセットは、未加工データのフィールド (時系列の分解に数を使用するか数値フィールドを使用するかによって異なる)、4 つのコンポーネント (季節性、トレンド、残差、季節調整済み)、および元の日付/時間フィールドで構成されています。
Forecast - STL データセットは、元の日付/時間フィールド、未加工データのフィールド (時系列の分解に数を使用するか数値フィールドを使用するかによって異なる)、推定、および予測間隔の上限と下限 (80% と 95%) で構成されています。
時間分解および予測の機能
時間分解および予測では、STL 法を使用して、時系列を季節性、トレンド、および残差の各コンポーネントに分割します。 STL アルゴリズムのデータ要件は、季節性コンポーネントの記述に使用される季節性によって決まります。
季節性
季節性 (周期性とも呼ばれる) を STL で使用すると、時系列内の季節的影響に合わせて調整を行うことができます。 たとえば、大気環境は毎年の周期に従う傾向があり、冬季には向上し、夏季には低下します。 毎月の季節性を使用して大気環境データを分解すると、大気環境の向上と低下の繰り返し周期に合わせて時系列を調整し、時間の経過に伴う大気環境の全体的なトレンドを十分に把握することができます。
季節性として、毎週、毎月、四半期、または毎年を使用できます。 時間分解および予測のデータ要件は、使用する季節性によって異なります。
どの季節性オプションでも、データがサブシリーズに分割されます。 時間分解または予測を使用するには、データセット内にサブシリーズごとのデータが少なくとも 1 つ存在する必要があります。
次の表は、季節性オプションと各オプションのサブシリーズおよびデータ要件をまとめたものです。
季節性 | サブシリーズ | データ要件 |
---|---|---|
毎週 | 第 1 ~ 52 週。 たとえば、1 月 1 ~ 7 日が第 1 週、1 月 8 ~ 14 日が第 2 週、以下同様に設定します。 | 週ごとのデータ ポイントが少なくとも 1 つ存在する、少なくとも 52 週分のデータ |
毎月 | 1 ~ 12 月。 | 月ごとのデータ ポイントが少なくとも 1 つ存在する、少なくとも 12 か月分のデータ |
四半期 | 第 1 ~ 4 四半期。 | 四半期ごとのデータ ポイントが少なくとも 1 つ存在する、少なくとも 4 四半期分のデータ |
毎年 | それぞれの年。 たとえば、2015 年から始まり 2020 年で終わるデータがデータセットに含まれている場合、サブシリーズは 2015 年、2016 年、2017 年、2018 年、2019 年、および 2020 年になります。 | 年ごとのデータ ポイントが少なくとも 1 つ存在する、少なくとも 4 年分のデータ |
季節性の例
2015 年 1 月から 2020 年 12 月まで毎日収集されたデータを含むデータセットで毎週の季節性を使用して、時間分解または予測を実行するとします。 ただし、データを収集するシステムは毎年 1 月 1 日から 1 月 10 日まで更新と保守のために停止するので、その期間中はデータが収集されません。 毎週の季節性を使用するには、データセット内に週ごとのデータが少なくとも 1 つ存在する必要があります。 第 1 週 (1 月 1 ~ 7 日) がデータから完全に欠落しているため、毎週の季節性をデータセットで使用することができません。 それ以外のすべての季節性オプションについては、最小データ要件を満たしており、毎月、四半期、および毎年のサブシリーズごとのデータが少なくとも 1 つ存在するため、データセットとの互換性があります。
データセットを毎週の季節性と互換させるために、計画的な停止が 2021 年の 1 月 2 日から始まるように変更されます。 2021 年 1 月 1 日に収集されたデータが第 1 週のサブシリーズに含まれるため、データセット内にサブシリーズごとのデータ ポイントが少なくとも 1 つ存在することになります。
注意:
サブシリーズごとの 1 つのデータ ポイントに関する要件は、毎年の要件ではなく、全体的な要件です。 これで、2015 ~ 2020 年の第 1 週のデータが利用できなくても、2021 年 1 月 2 日のデータ ポイントは要件を満たします。
予測間隔
予測間隔は、Hyndman and Athanasopoulos (2018, chap. 7) の次の式を使用して予測で計算されます。
ŷT+h|T ± cσh
要素:
- ŷt = 時間 t における予測分布の平均値。
- ŷT+h|T = h 予測期間サイクルの時間 T までの ŷt の累積予測。
- c = カバレッジ確率
- σh = 予測分散の平方根
制限事項
時間分解と予測は、時間のみのフィールド (時間のコンポーネントを持つが、日付のない日付/時刻フィールド) をサポートしていません。
参考文献
Hyndman, Rob J., and George Athanasopoulos. 2018. Forecasting: Principles and Practice. 2nd ed. Melbourne, Australia: OTexts. OTexts.com/fpp2.