[時系列の平滑化の詳細

[時系列の平滑化 (Time Series Smoothing)] ツールは、中心化移動平均、前方移動平均、後方移動平均、および局所線形回帰分析に基づく適応方法を使用して、1 つまたは複数の時系列の数値変数を平滑化します。

時系列の平滑化技法は、時間経過とともに収集されたデータを扱う経済、気象、生態学などの分野で幅広く使用されています。 多くの場合、時系列データを平滑化すると、長期的な傾向や周期が明らかになると同時に、ノイズや短期的な変動が平滑化されます。

適用例

時系列の平滑化は、ノイズや短期的な変動を含むことが知られているあらゆる時系列データに適用できます。 たとえば、このツールは次のような用途に使用できます。

  • 毎日のインフルエンザ症例は、疫学的な研究および計画で一般的に使用されています。 ただし、多くの場合で、週末に検出されたインフルエンザ症例は月曜になるまで報告されないため、月曜からの症例数が実態よりも多く見え、週末の症例数が実態よりも少なく見えます。 これを修正するには、6 日のタイム ウィンドウを指定した後方移動平均を使用できます。 6 日を使用すると、当日とその前の 6 日間、すなわち合計 1 週間の値が平均化されます。
  • 毎時間計測される長期的な温度データがあります。 このデータを時系列でプロットした場合、データ量およびノイズが多すぎて、パターンや傾向を明確に理解できません。 このようなデータの一般的傾向を把握するには、より明確な視覚化と分析を可能にする適応帯域幅局所線形回帰分析を使用します。 適応帯域幅方法では、各セクションの効率的な平滑化のために必要なデータ量に応じて、時系列の一部のセクションでそれ以外の部分よりも長いタイム ウィンドウを使用します。

平滑化方法

このツールでは 4 つの平滑化方法を使用できます。

平滑化方法

時系列を平滑化するために 4 つの方法を使用できます。

[後方移動平均] 方法 (単純移動平均とも呼ばれる) は、広く使用されている単純な平滑化方法であり、タイム ウィンドウ内の値とその前のすべての値の平均を求めて各値を平滑化します。 この方法には、ストリーミング データに対してすぐに実行できるという利点があります。つまり、新しい値が記録されると、時系列の前のデータを使用してすぐに平滑化できます。 しかし、この方法では、平滑化される値がタイム ウィンドウの中心にないため、すべての情報が値の片側のみから取得されるという欠点もあります。 したがって、データの傾向が、平滑化される値の両側で同じではない場合、予期しない結果が生じることがあります。

[前方移動平均] 方法は、後方移動平均と似ていますが、平滑化後の値は、タイム ウィンドウ内の値とその後のすべての値の平均になります。 この方法にも、平滑化に使用されるすべての情報が値の片側から取得されるという類似した欠点があります。

[中心化移動平均] 方法は、平滑化される値がタイム ウィンドウの中心にあるウィンドウ内で平均化することで各値を平滑化します。 この方法では、平滑化される値の時間以前にタイム ウィンドウの半分が使用され、値の時間以降にウィンドウのもう半分が使用されるようにウィンドウが分割されます。 この方法では、平滑化される値の時間の前と後の情報が使用されるため、一般に安定性が高く、偏りが少ないという利点があります。

[適応帯域幅局所線形回帰分析] 方法 (Friedman のスーパースムーザー法とも呼ばれる) は、中心化されたタイム ウィンドウを使用し、線形回帰分析 (直線) モデルを複数のタイム ウィンドウ内のデータに適合させて値を平滑化します。 タイム ウィンドウの長さは値ごとに変化する可能性があるため、時系列のセクションによっては、モデルに含める情報を増やすためにより長いウィンドウが使用されます。 この方法では、タイム ウィンドウをツールが推定できるため、指定する必要がないというメリットがあります。 また、複雑な傾向が存在するデータをモデル化するのに最適な方法でもあります。 ツールにタイム ウィンドウの値が指定された場合は、単一のタイム ウィンドウがすべてのレコードの平滑化に使用されるので、この方法は局所線形回帰分析と同じになります。 この方法の完全な説明については、「適応帯域幅局所線形回帰分析」セクションの末尾にある論文をご参照ください。

適応帯域幅局所線形回帰分析

[開始時と終了時に短縮されたタイム ウィンドウを適用] パラメーターは、時系列の開始時と終了時にタイムウィンドウを制御するために使用されます。 短縮されたウィンドウが適用されない場合は、時系列の開始前または終了後にタイム ウィンドウが延長されるすべてのレコードで平滑化後の値が NULL になります。 タイム ウィンドウが短縮される場合、タイム ウィンドウは開始時と終了時に切詰められ、そのウィンドウ内の値を使用して平滑化が行われます。 たとえば、日次データがあり、2 日のタイム ウィンドウを指定して後方移動平均を使用した場合、タイム ウィンドウが短縮されないと、最初の 2 日間の平滑後の値が NULL になります (2 日目は、時系列の開始の 1 日後であることに注意してください)。 3 日目 (時系列の開始の 2 日後) は、2 日のタイム ウィンドウが開始前に延長されないため、3 日目の平滑後の値は、最初の 3 日間の値の平均になります。

ツールの出力

このツールのプライマリ出力は、元の値、平滑後の値、および位置の平滑化に使用された近接フィーチャの数が格納されたフィーチャクラスまたはテーブルです。 平滑後の値が入るフィールドのエイリアスには、平滑化方法と解析のタイム ウィンドウが表示されます (適応帯域幅が使用されている場合、タイム ウィンドウは表示されません)。 入力データに追加する場合、これらのフィールドが入力フィーチャまたはテーブルに追加されます。 適応帯域幅局所線形回帰分析では、隣接値の数が整数でないことがあります。 詳細については以降の「適応帯域幅局所線形回帰分析」をご参照ください。

時系列チャート

[時系列ポップアップを有効化] パラメーターを使用して、各出力レコードのポップアップ チャートを作成できます。 フィーチャ出力の場合は、マップ上のフィーチャをクリックして、そのフィーチャの時系列における元の値と平滑後の値が表示します。 テーブル出力のポップアップにアクセスするには、属性テーブルのレコードを右クリックします。

時系列ポップアップ チャート

出力フィーチャまたはテーブルは、各時系列の平滑後の値を示すライン チャートも含まれています。

時系列ライン チャート

注意:

入力データに多数の時系列が含まれている場合は、チャートの表示時にパフォーマンスの問題が発生することがあります。

ジオプロセシング メッセージ

ジオプロセシング メッセージには、各時系列の平滑化結果に関する情報を含む [平滑化のサマリー] セクションがあります。 この情報には R2 値、および時系列隣接数の要約統計量 (最小、最大、平均、中央、および標準偏差) が含まれています。

適応帯域幅局所線形回帰分析

適応帯域幅局所線形回帰分析では、時間の隣接値を使用して各時間ステップでローカル線形モデルが構築されます。隣接の数は各時間ステップによって異なる場合があります。 各時間ステップでは、変化する隣接の数を使って複数の線形回帰分析が実行され、モデルが平滑化され、データに最適な形になるよう組み合わされながら効果的に平滑化されます。

以下の図は時間ステップが 200 個ある時系列を示しています。 グレーのポイントはノイズを含む元の時系列値で、赤と青のラインはそれぞれ隣接の固定数を持つ平滑化結果を表しています。 赤のラインでは 20 個の隣接を使用しており、データの短期的な変動を効果的に平滑化していません。赤のラインがギザギザになっていて滑らかではないグラフの右側ではこれが特に顕著です。 青のラインでは 80 個の隣接を使用しており、時系列前半のデータの山頂と谷に到達するには過剰に平滑化されています。 緑のラインは、時系列全体で滑らかさを適切なレベルに保つために赤と青のラインを最適な形で組み合わせたものです。 緑のラインでは、赤のラインがギザギザの時系列のセクションで隣接の数を増やし、青のラインが滑らかすぎるセクションで隣接の数を減らしています。

3 つの固定帯域幅の平滑化結果

時間ステップによりフィットする時系列に応じて、時系列の一部のセクションでは緑のラインが赤のラインに近づいており、他のセクションでは緑のラインが青のラインに近づいています。 以下の図は、時間ステップ 134 の周囲を拡大した時系列を示しています。 赤のラインが青のラインよりも点群の中心に近くなっているため、緑のラインが青のラインよりも赤のラインに近くなっています。

時間ステップ 134 の平滑化結果

時間ステップで使用される隣接数は、赤と青の線の隣接数間のリニア内挿法によって定義され、適合性が高いラインによって重み付けされます。 以下の図は、時間ステップ 150 より前の大半の時間ステップと赤のラインが最も適合し、時間ステップ 150 以降の大半の時間ステップでは青のラインが最も適合していることを示しています。 時間ステップ 134 の最適な隣接数は 26.4 で、80 個よりも 20 個に近くなっています。

最適な近傍数

適応帯域幅局所線形回帰分析の完全な説明については、次の参考資料をご参照ください。