Einführung in Modelldateien für räumliche Statistiken

Eine Modelldatei für räumliche Statistiken (.ssm-Datei) ist eine Datei, die das trainierte Modell, Eigenschaften und Modelldiagnosen einer Analyse, die durch mehrere Werkzeuge im Toolset Modellierung von räumlichen Beziehungen durchgeführt wurde, enthält. Sie können eine Modelldatei für räumliche Statistiken verwenden, um anhand neuer Datasets Vorhersagen zu treffen, und sie sicher für andere Benutzer freigeben, die sie dann mit ihren Daten verwenden können. Zum Beispiel kann eine Ökologin Felddaten zu bekannten Positionen des Vorhandenseins einer bedrohten Art sammeln und ein Modell zur Vorhersage anderer wahrscheinlicher Positionen dieser Art in ihrem Untersuchungsgebiet erstellen. Die .ssm-Datei kann sie für andere Ökologen freigeben, die sie dann für Vorhersagen der Positionen dieser Art in ihren Untersuchungsgebieten verwenden können. Da die Daten, die zum Trainieren des Modells verwendet wurden, nicht in der .ssm-Datei gespeichert werden, werden beim Freigeben der Modelldatei die hochsensiblen ursprünglichen Positionen der bedrohten Art nicht preisgegeben.

Zum Verwalten und Vorhersagen mit .ssm-Dateien können Sie die folgenden Werkzeuge verwenden:

  • Eigenschaften der Modelldatei für räumliche Statistiken festlegen: Zum Festlegen der Eigenschaften einer .ssm-Datei, wie zum Beispiel der Variablenbeschreibungen und -einheiten. Damit können Sie die Variablen des Modells und ihre Einheiten erläutern, damit andere Benutzer diese Datei entsprechend verwenden können. Zum Beispiel können Sie angeben, dass ein erklärendes Entfernungs-Feature die Entfernungen zu Krankenhäusern in US-Meilen darstellt, damit andere Benutzer wissen, dass sie dieses Modell nur für Daten eines bestimmten Typs verwenden können.
  • Modelldatei für räumliche Statistiken beschreiben: Zum Anzeigen der Eigenschaften einer .ssm-Datei, wie zum Beispiel der Analysemethode, der Dataset-Namen, der Eigenschaften und der Modelldiagnosen. Anhand dieser Informationen können Sie verstehen, was eine Variable bedeutet, damit Sie alle Variablen, Datasets und Einheiten korrekt abgleichen können, wenn Sie diese Datei verwenden, um anhand neuer Daten Vorhersagen zu treffen.
  • Mit Modelldatei für räumliche Statistiken vorhersagen: Zum Verwenden der .ssm-Datei, um mit neuen Datasets Vorhersagen zu treffen. Sie müssen jede Variable und jedes Dataset in der .ssm-Datei mit einem neuen Dataset desselben Typs und mit derselben Einheit abgleichen. Zum Beispiel kann für eine erklärende Variable in der Modelldatei ein Raster aus Temperaturwerten in Grad Celsius erforderlich sein.

Eine .ssm-Datei können Sie mit dem Parameter Trainierte Ausgabe-Modelldatei in den folgenden Werkzeugen erstellen:

Workflow mit einer Modelldatei für räumliche Statistiken

Beispielanwendungen

Die folgenden Szenarien beschreiben analytische Workflows, in denen eine .ssm-Datei nützlich sein kann.

Szenario 1: Wiederverwenden des Modells zum Verkürzen der Modelltrainingszeit

Wenn Sie eine analytische Modellierung mit großen Datasets durchführen, kann der Trainingsprozess sehr viel Zeit beanspruchen und den Einsatz von kostspieliger Computer-Hardware erfordern. In vielen Fällen müssen Sie das Modell auch mehrmals trainieren, um die Einstellungen zu optimieren. Nach der Auswahl der Modelleinstellungen, die die besten Ergebnisse liefern, möchten Sie diesen Trainingsprozess sicher nicht für jedes zukünftige Dataset, das Sie für Vorhersagen verwenden möchten, wiederholen. Wenn Sie eine .ssm-Datei mit den Ergebnissen des ersten Trainings erstellen, dann können Sie diese Datei mit allen zukünftigen Datasets wiederverwenden, ohne das Modell erneut trainieren zu müssen. Die Verwendung desselben Trainingsmodells gewährleistet auch die Konsistenz der Vorhersagen für alle zukünftigen Datasets, wenn dasselbe zugrunde liegende Vorhersagemodell verwendet wird.

Szenario 2: Freigeben der Dateien eines trainierten Modells für andere Benutzer

Sie können die .ssm-Datei für andere Benutzer freigeben, die das Modell mit ihren eigenen Daten verwenden möchten. Da auf die Daten, die zum Erstellen des Modells verwendet wurden, nicht direkt zugegriffen werden kann, weil sie nicht in der Modelldatei gespeichert werden, können Sie die Datei freigeben, ohne dass die sensiblen Daten, die zum Trainieren des Modells verwendet wurden, preisgegeben werden. Vor dem Freigeben des Modells können Sie das Werkzeug Eigenschaften der Modelldatei für räumliche Statistiken festlegen verwenden, um Variablenbeschreibungen und Variableneinheiten hinzuzufügen. Dies ist vor allem nützlich, damit andere Benutzer wissen, welche Daten welcher Typen und welche Einheiten zum Treffen von Vorhersagen mit dieser Datei verwendet werden müssen. Der Empfänger der Modelldatei kann mit dem Werkzeug Modelldatei für räumliche Statistiken beschreiben Eigenschaften und Modelldiagnosen anzeigen und dann mit dem Werkzeug Mit Modelldatei für räumliche Statistiken vorhersagen mit seinen eigenen Daten Vorhersagen treffen.

Szenario 3: Automatisieren der Analyse von Streaming-Daten-Services

Beim Arbeiten mit Daten, die regelmäßig aktualisiert werden, wie zum Beispiel die Postionen von Waldbränden von einem Streaming-Daten-Service, ermöglicht die Verwendung einer .ssm-Datei eine einfache Automatisierung der Verarbeitung der neuen Daten. Bei jeder Aktualisierung der Daten können Sie die .ssm-Datei im Werkzeug Mit Modelldatei für räumliche Statistiken vorhersagen schnell mit den aktualisierten Daten wiederverwenden.

Inhalt einer SSM-Datei

.ssm-Dateien enthalten umfassende Informationen zu Modellen. Zusätzlich zu den Variablenbeschreibungen und -einheiten, die durch das Werkzeug Eigenschaften der Modelldatei für räumliche Statistiken festlegen erstellt wurden, enthalten .ssm-Dateien auch Modelldiagnosen zum Untersuchen der Genauigkeit und Zuverlässigkeit des Modells.

Für das Werkzeug Generalisierte lineare Regression enthält die .ssm-Datei die Regressionskoeffizienten und Diagnosen, wie zum Beispiel AICc, R2, korrigiertes R-Quadrat (Adjusted R2), Joint F-Statistik und Joint Wald-Statistik. Eine vollständige Liste der Modelldiagnosen mit Beschreibungen finden Sie im Abschnitt Interpretieren von Meldungen und Diagnosen.

Für das Werkzeug Forest-basierte Klassifizierung und Regression enthält die .ssm-Datei Entscheidungsbäume, Merkmale des Modells, Validierungsdiagnosen, die höchste Wichtigkeit von Variablen und Diagnosen des Bereichs der erklärenden Variable. Out-of-Bag-Fehler (OOB-Fehler) des Modells sind nicht enthalten, da diese Diagnose für neue Vorhersagen nicht relevant ist und zu einer signifikanten Zunahme der Größe der .ssm-Datei führen würde. Weitere Informationen finden Sie im Abschnitt Ausgeben von Meldungen und Diagnosen.

Für das Werkzeug Auf Vorhandensein beschränkte Vorhersage (MaxEnt) enthält die .ssm-Datei wichtige Informationen zum trainierten Modell, Modelleigenschaften und Modellzusammenfassung, Regressionskoeffizienten, eine Zusammenfassung der Kategorien (wenn erklärende Variablen kategorisch sind) und Diagnosen des Bereichs der erklärenden Variablen für Trainingsdaten. Ergebnisse der Kreuzvalidierung und Anzahl der Punkte für Vorhandensein und Hintergrund sind nicht enthalten, da sie potenziell zum Zurückentwickeln der sensiblen Daten, die zum Trainieren des Modells verwendet wurden, wie zum Beispiel die Positionen des Vorhandenseins einer bedrohten Art, verwendet werden können. Weitere Informationen finden Sie im Abschnitt Geoverarbeitungsmeldungen.

Empfehlungen

Beim Erstellen und Verwenden von .ssm-Dateien sollten Sie die folgenden Hinweise beachten:

  • Um die Transparenz und Aussagekraft des Modells für die Freigabe zu verbessern, sollten Sie mit dem Werkzeug Eigenschaften der Modelldatei für räumliche Statistiken festlegen die Beschreibung und die Einheit für jede Variable angeben. Die Dokumentation der Variablen und deren Verwendung ist für wissenschaftliche Genauigkeit und Reproduzierbarkeit wichtig.
  • Obwohl die .ssm-Dateien weder die Trainingsdaten (sondern nur die Trainingsergebnisse) noch die sensibelsten Modelldiagnosen enthalten, stellen Datenschutz und -sicherheit dennoch ein potenzielles Problem dar. Bestimmte komplexe Modelldiagnosen, wie zum Beispiel die Konfusionsmatrix, können potenziell zum Zurückentwickeln ursprünglicher Trainingsdaten verwendet werden.
  • Wenn eine .ssm-Datei verwendet wird, die durch Andere erstellt wurde, dann sollten Sie mit dem Werkzeug Modelldatei für räumliche Statistiken beschreiben die Eigenschaften dieser Datei untersuchen. Die Variablenbeschreibungen und -einheiten sind für ein Modell besonders wichtig. Bevor Sie es für Vorhersagen verwenden, müssen Sie möglicherweise die Daten in die für dieses Modell geltenden Einheiten konvertieren. Zum Beispiel müssen Sie möglicherweise die Temperaturwerte von Grad Fahrenheit in Grad Celsius konvertieren, damit die Vorhersagen genau sind.

Datenmodell HDF5

Die Ergebnisse und Metadaten eines Modells werden in der .ssm-Datei gemäß dem Datenmodell HDF5 (Hierarchical Data Format Version 5) gespeichert. HDF5 hat die folgenden Vorteile:

  • Mit HDF5 werden große Datenmengen in einer organisierten Struktur, die stark komprimiert ist, gespeichert. Zum Beispiel kann ein Forest-basiertes Regressionsmodell, das mit 600.000 Features und 10.000 Bäumen trainiert wurde, in einer Datei mit einer Größe von unter 20 GB gespeichert werden. Mit einem weniger effizienten Datenmodell kann solch ein komplexes Modellergebnis nur schwer in einer konventionellen Datei, die problemlos freigegeben werden kann, untergebracht werden.
  • HDF5 ist ein selbstbeschreibendes Datenmodell. Das bedeutet, anstatt die Daten und Metadaten getrennt voneinander in verschiedenen Dateien speichern zu müssen, können Sie die Metadaten direkt an die Datasets anhängen. Dank dieser Synchronisierung sind die HDF5-Daten transparent und ohne die Notwendigkeit der Verwaltung mehrerer Dateien, die zusammenbleiben müssen, zugänglich.
  • HDF5 ermöglicht das Lesen und Schreiben von Daten mit hervorragender Performance. Wenn zum Beispiel bei der Verwendung eines Werkzeugs aus der Toolbox "Spatial Statistics" entschieden wird, eine .ssm-Datei zu erstellen, dann verlängert sich dadurch die Ausführungszeit dieses Werkzeugs nur unwesentlich. Wenn das Modell für Vorhersagen mit neuen Daten verwendet werden soll, dann kann schnell auf dieses Modell zugegriffen werden, um den zusätzlichen Aufwand zu minimieren.

Weitere Informationen zu HDF5

Zusätzlich zu den Werkzeugen Eigenschaften der Modelldatei für räumliche Statistiken festlegen, Modelldatei für räumliche Statistiken beschreiben und Mit Modelldatei für räumliche Statistiken vorhersagen können Sie .ssm-Dateien auch mit HDF5-Standardbibliotheken untersuchen.

Das folgende Python-Codebeispiel zeigt, wie die Eigenschaften einer .ssm-Datei mit dem h5py-Paket untersucht und gedruckt werden können:


# Import necessary packages
import numpy as np
import h5py

spatialStatsModel = h5py.File(r'C:/MyData/MySSMFile.ssm', 'r')

# Get a list of keys of the variables:
ls = list(spatialStatsModel.keys())

# Get the attributes of the model:
attrs = list(spatialStatsModel.attrs)

# Print all the datasets and attributes
print("The variables in the model:")
for k in ls:
     print("{}---{}, --- {}".format(k, spatialStatsModel[k][()],
                             type(spatialStatsModel[k][()])))

print("The attributes in the model:")
for k in attrs:
     print("{}---{}, --- {}".format(k, spatialStatsModel.attrs.get(k),
                             type(spatialStatsModel.attrs.get(k))))

# Close the .ssm file
spatialStatsModel.close