空間統計モデル ファイルの概要

空間統計モデル (.ssm) ファイルは、トレーニング済みモデル、プロパティ、空間関係のモデリング ツールセット内の複数のツールで実行される分析のモデル診断を含むファイルです。 空間統計モデル ファイルでは、新しいデータセットを使用して予測を立てたり、自分のデータでモデルを使用できる他のユーザーと安全にファイルを共有したりすることができます。 たとえば、野生生物の生態学者は、絶滅危惧種の既知の生息地のフィールド データを収集し、分析範囲内でその種が生息している可能性のある他の場所を予測するためのモデルを構築することができます。 次に、そのモデルを使用して独自の分析範囲内でその種が生息している場所を予測できる他の生態学者と .ssm ファイルを共有できます。 モデルのトレーニングに使用されるデータは .ssm ファイルに格納されないため、モデル ファイルを共有しても、絶滅危惧種の元の生息地に関する機密性の高い内容が公開されることはありません。

次のツールを使用すると、.ssm ファイルを管理し、そのファイルで予測を立てることができます。

  • 空間統計モデル ファイルのプロパティを設定 (Set Spatial Statistics Model File Properties) - 変数の説明と単位を含む .ssm ファイルのプロパティを設定します。 このツールでは、モデルの変数とその単位を説明して、他のユーザーがファイルを正しく使用できるようにします。 たとえば、説明距離フィーチャが米国マイルで計測された病院までの距離を表すように指定すると、他のユーザーは、そのモデルを特定のタイプのデータにしか使用できないことを認識できます。
  • 空間統計モデル ファイルの説明 (Describe Spatial Statistics Model File) - 分析方法、データセット名、プロパティ、モデル診断など、.ssm ファイルのプロパティを確認します。 このツールでは、各変数の意味を理解し、そのファイルを使用して新しいデータで予測を立てる際に、すべての変数、データセット、および単位を正しく一致させることができます。
  • 空間統計モデル ファイルを使用して予測 (Predict Using Spatial Statistics Model File) - .ssm ファイルを使用して、新しいデータセットで予測を立てます。 .ssm ファイル内の各変数またはデータセットを、タイプと単位が同じである新しいデータセットと一致させる必要があります。 たとえば、モデル ファイル内の説明変数には、摂氏で計測された気温値のラスターが必要となることがあります。

.ssm ファイルを作成するには、次のツールで [出力トレーニング済みモデル ファイル] パラメーターを使用します。

空間統計モデル ファイルのワークフロー

応用例

次のシナリオでは、.ssm ファイルを有効に活用できる分析ワークフローを説明します。

シナリオ 1: モデルを再利用して、モデルのトレーニング時間を短縮する

大規模なデータセットを使用して分析モデリングを実行する場合には、トレーニング プロセスに多大な時間がかかり、高価なコンピューター ハードウェアが必要になることがあります。 また、設定の微調整のためにモデルのトレーニングを複数回実行しなければならないこともよくあります。 最良の結果をもたらすモデル設定を選択したら、予測を立てる際に今後使用するデータセットごとに、このトレーニング プロセスを繰り返し実行する必要がなくなります。 最初のトレーニング結果を含む .ssm ファイルを作成しておくと、モデルのトレーニングを再実行しなくても、今後使用するすべてのデータセットでモデルを再利用できます。 また、同じトレーニング モデルを使用すると、基になる同じ予測モデルで、今後使用するすべてのデータセットの予測の整合性が確保されます。

シナリオ 2: トレーニング済みモデル ファイルを他のユーザーと共有する

自分のデータでモデルを使用したいと思っている他のユーザーと .ssm ファイルを共有できます。 モデルの作成に使用されたデータにはモデル ファイルから直接アクセスできないので、そのモデルのトレーニングに使用された機密データを公開せずに、そのモデルを共有することができます。 モデルを共有する前に、[空間統計モデル ファイルのプロパティを設定 (Set Spatial Statistics Model File Properties)] ツールを使用して、変数の説明と単位を追加できます。 これは、ファイルで予測を立てる場合に使用するデータ タイプと単位を他のユーザーに認識させるのに役立ちます。 モデル ファイルを受け取ったユーザーは、[空間統計モデル ファイルの説明 (Describe Spatial Statistics Model File)] ツールを使用して、プロパティとモデル診断を表示し、[空間統計モデル ファイルを使用して予測 (Predict Using Spatial Statistics Model File)] ツールを使用して、自分のデータで予測を立てることができます。

シナリオ 3: ストリーミング データ サービスの解析を自動化する

山火事の場所のストリーミング データ サービスなど、定期的に更新されるデータを操作する場合は、.ssm ファイルを使用すると、新しいデータが使用可能になった時点で簡単に自動化することができます。 データが更新されるごとに、そのデータが反映された [空間統計モデル ファイルを使用して予測 (Predict Using Spatial Statistics Model File)] ツールを使用して .ssm ファイルをすぐに再利用できます。

.ssm ファイルの内容

.ssm ファイルには、モデルに関する包括的な情報が格納されています。 .ssm ファイルには、[空間統計モデル ファイルのプロパティを設定 (Set Spatial Statistics Model File Properties)] ツールで作成された変数の説明と単位だけでなく、モデルの正確性と信頼性を確認するためのモデル診断も含まれています。

[一般化線形回帰分析 (Generalized Linear Regression)] ツールの場合、.ssm ファイルには、AICc、R2、補正 R2、Joint F-Statistics、Joint Wald Statistics などの回帰係数と回帰診断が含まれています。 モデル診断の完全なリストと説明は、「メッセージ診断の解釈」セクションをご参照ください。

[フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールの場合、.ssm ファイルには、決定木、モデルの特性、整合チェック診断、上位変数の重要度、説明変数範囲診断が含まれています。 モデルの Out Of Bag (OOB) エラーは含まれていません。この理由として、この診断は、新しい予測を立てるのに適しておらず、.ssm ファイルのサイズを増大させることになるためです。 詳細については、「出力メッセージと診断」セクションをご参照ください。

[Presence-only 予測 (Presence-only Prediction (MaxEnt))] ツールの場合、.ssm ファイルには、トレーニング済みモデル、モデルの特性とサマリー、回帰係数、カテゴリ別のサマリー (説明変数がカテゴリの場合)、トレーニング データの説明変数範囲診断に関する重要な情報が含まれています。 交差検証の結果と存在および背景ポイントのカウントは含まれていません。この理由として、これらは、絶滅危惧種の生息地など、モデルのトレーニングに使用されている機密データのリバースエンジニアリングに利用される可能性があるためです。 詳細については、「ジオプロセシング メッセージ」セクションをご参照ください。

ベスト プラクティス

.ssm ファイルを作成および使用する際には、次の点を考慮してください。

  • 透過性が高く、共有するのに意味のあるモデルにするには、[空間統計モデル ファイルのプロパティを設定 (Set Spatial Statistics Model File Properties)] ツールを使用して、すべての変数の説明と単位を指定します。 科学的な正確性と再現性のために、変数とその使用方法を記録しておくことが重要となります。
  • .ssm ファイルでは、トレーニング データが直接パッケージ化されず (トレーニング結果のみ)、最も機密性の高いモデル診断が格納されませんが、データのプライバシーとセキュリティは現在でも潜在的な懸念事項となっています。 混同行列などの一部の複雑なモデル診断は、元のトレーニング データのリバースエンジニアリングに利用される可能性があります。
  • 他のユーザーが作成した .ssm ファイルを使用する場合は、[空間統計モデル ファイルの説明 (Describe Spatial Statistics Model File)] ツールでプロパティを確認する必要があります。 変数の説明と単位は特に重要であり、データを予測に使用する前に、モデルで想定された単位に手動で変換しておくことが必要となります。 たとえば、正確な予測を立てるために、気温の値を華氏から摂氏に変換しておく必要があります。

HDF5 データ モデル

.ssm ファイルには、階層データ形式バージョン 5 (HDF5) データ モデルを使用して、モデルの結果とメタデータが格納されます。 HDF5 には、次の利点があります。

  • HDF5 では、圧縮率が高く、整理された構造に大規模なデータが格納されます。 たとえば、600,000 個のフィーチャと 10,000 個のツリーを使用してトレーニングされたフォレストベースの回帰分析モデルを 20 GB 未満のファイルに格納することができます。 効率のよくないデータ モデルでは、このような複雑なモデルの結果を、共有しやすい従来型のファイルに格納することが困難です。
  • HDF5 は自己説明的なデータ モデルであるため、データとメタデータを別々のファイルに分けるのではなく、メタデータをデータセットに直接配置することができます。 この同期により、HDF5 データが透過的かつアクセス可能になり、まとめて保持しておく必要のある複数のファイルを管理しなくても済みます。
  • HDF5 は、データの高度な読み取りと書き込みに対応しています。 たとえば、空間統計ツールの使用中に .ssm ファイルを作成しても、そのツールの実行時間が大幅に長くなることはありません。 モデルを使用して、新しいデータで予測を立てる場合に、そのモデルにすばやくアクセスして、オーバーヘッドを最小限に抑えることができます。

HDF5 の詳細

[空間統計モデル ファイルのプロパティを設定 (Set Spatial Statistics Model File Properties)][空間統計モデル ファイルの説明 (Describe Spatial Statistics Model File)][空間統計モデル ファイルを使用して予測 (Predict Using Spatial Statistics Model File)] ツールだけでなく、標準 HDF5 ライブラリを使用して .ssm ファイルを調査することもできます。

次の Python コードの例では、h5py パッケージを使用して .ssm ファイルのプロパティを調査および出力する方法を示しています。


# Import necessary packages
import numpy as np
import h5py

spatialStatsModel = h5py.File(r'C:/MyData/MySSMFile.ssm', 'r')

# Get a list of keys of the variables:
ls = list(spatialStatsModel.keys())

# Get the attributes of the model:
attrs = list(spatialStatsModel.attrs)

# Print all the datasets and attributes
print("The variables in the model:")
for k in ls:
     print("{}---{}, --- {}".format(k, spatialStatsModel[k][()],
                             type(spatialStatsModel[k][()])))

print("The attributes in the model:")
for k in attrs:
     print("{}---{}, --- {}".format(k, spatialStatsModel.attrs.get(k),
                             type(spatialStatsModel.attrs.get(k))))

# Close the .ssm file
spatialStatsModel.close