Présentation des fichiers de modèle de statistiques spatiales

Un fichier de modèle de statistiques spatiales (.ssm) contient le modèle entraîné, les propriétés et les diagnostics de modèle d’une analyse effectuée par plusieurs outils dans le jeu d’outils Modélisation de relations spatiales. Vous pouvez utiliser un fichier de modèle de statistiques spatiales pour effectuer des prévisions à l’aide de nouveaux jeux d’outils et le partager en toute sécurité avec d’autres personnes qui peuvent l’utiliser avec leurs données. Par exemple, un spécialiste de la flore et de la faune peut collecter des données sur le terrain indiquant les localisations connues d’une espèce en danger et construire un modèle pour prévoir les autres localisations probables de l’espèce dans sa zone d’étude. Il peut ensuite partager le fichier .ssm avec d’autres écologistes qui peuvent l’utiliser pour prévoir les localisations des espèces dans leurs propres zones d’étude. Comme les données utilisées pour entraîner le modèle ne sont pas stockées dans le fichier .ssm, les localisations d’origine très sensibles de l’espèce en danger ne seront pas révélées en partageant le fichier de modèle.

Vous pouvez utiliser les outils suivants pour la gestion et la prévision avec des fichiers .ssm :

  • Définir les propriétés du fichier de modèle de statistiques spatiales : définit les propriétés d’un fichier .ssm, notamment les unités et descriptions de variable. Cela vous permet d’expliquer les variables du modèle et leurs unités afin que les autres personnes puissent utiliser le fichier correctement. Par exemple, vous pouvez indiquer qu’une entité de distance explicative représente les distances vers les hôpitaux, mesurées en miles américains, afin que d’autres personnes sachent qu’elles ne doivent utiliser le modèle que pour un type particulier de données.
  • Décrire le fichier de modèle de statistiques spatiales : affiche les propriétés d’un fichier .ssm, notamment la méthode d’analyse, les noms de jeux de données, les propriétés et les diagnostics de modèle. Cela vous permet de comprendre la signification de chaque variable afin d’apparier correctement l’ensemble des variables, jeux de données et unités lors de l’utilisation du fichier pour effectuer des prévisions avec de nouvelles données.
  • Prévision avec un fichier de modèle de statistiques spatiales : utilise le fichier .ssm pour effectuer des prévisions avec de nouveaux jeux de données. Vous devez apparier chaque variable ou jeu de données dans le fichier .ssm avec un nouveau jeu de données ayant les mêmes type et unité. Par exemple, une variable explicative dans le fichier de modèle peut nécessiter un raster de valeurs de température mesurées en degrés Celsius.

Vous pouvez créer un fichier .ssm à l’aide du paramètre Output Trained Model File (Fichier de modèle entraîné en sortie) dans les outils suivants :

Processus du fichier de modèle de statistiques spatiales

Exemples d’application

Les scénarios suivants décrivent les processus analytiques dans lesquels un fichier .ssm peut s’avérer utile.

Scénario 1 : réutiliser le modèle pour réduire le temps d’entraînement du modèle

Si vous effectuez une modélisation analytique avec des jeux de données volumineux, le processus d’entraînement peut être très chronophage et nécessiter du matériel informatique coûteux. Dans de nombreux cas, vous aurez également besoin d’entraîner le modèle plusieurs fois pour affiner les paramètres. Après avoir choisi les paramètres de modèle qui obtiennent les meilleurs résultats, vous ne voulez pas répéter ce processus d’entraînement pour chaque jeu de données ultérieur que vous utiliserez pour effectuer des prévisions. La création d’un fichier .ssm avec les résultats d’entraînement initiaux vous permet de le réutiliser avec tous les jeux de données ultérieurs sans avoir besoin d’entraîner à nouveau le modèle. L’utilisation du même modèle d’entraînement garantit également la cohérence des prévisions pour tous les jeux de données ultérieurs en utilisant le même modèle de prévision sous-jacent.

Scénario 2 : partager un fichier de modèle entraîné avec d’autres utilisateurs

Vous pouvez partager le fichier .ssm avec d’autres utilisateurs qui souhaitent se servir du modèle avec leurs propres données. Comme les données utilisées pour créer le modèle ne sont pas directement accessibles à partir du fichier de modèle, vous pouvez le partager sans révéler les données sensibles utilisées pour l’entraîner. Avant de partager le modèle, vous pouvez utiliser l’outil Définir les propriétés du fichier de modèle de statistiques spatiales pour ajouter des unités et des descriptions de variable. Cela s’avère utile pour les autres utilisateurs, afin qu’ils sachent quels types de données et quelles unités utiliser lorsqu’ils effectuent des prévisions avec le fichier. Après avoir reçu le fichier de modèle, le destinataire peut afficher les propriétés et les diagnostics de modèle avec l’outil Décrire le fichier de modèle de statistiques spatiales, puis effectuer des prévisions avec ses données à l’aide de l’outil Prévision avec un fichier de modèle de statistiques spatiales.

Scénario 3 : automatiser l’analyse des services de données en mode continu

Lors de l’utilisation de données régulièrement mises à jour, comme un service de données en mode continu de localisation d’incendies, l’utilisation d’un fichier .ssm permet une automatisation simple lorsque de nouvelles données sont mises à disposition. Lors de chaque mise à jour des données, vous pouvez réutiliser rapidement le fichier .ssm dans l’outil Prévision avec un fichier de modèle de statistiques spatiales avec les données mises à jour.

Contenu d’un fichier .ssm

Le fichier de modèle stocke des informations complètes sur les modèles. Outre les unités et descriptions de variable qui sont créées par l’outil Définir les propriétés du fichier de modèle de statistiques spatiales, les fichiers .ssm contiennent également des diagnostics de modèle pour étudier la précision et la fiabilité du modèle.

ArcGIS Pro 3.2 et les versions ultérieures permettent l’entraînement et la prévision à l’aide de données avec des champs de type ObjectID 64 bits et entier très grand.

Pour l’outil Régression linéaire généralisée, le fichier .ssm inclut les coefficients de régression et les diagnostics comme AICc, R2, R2 ajusté, Statistiques F de jointure et Statistiques Wald de jointure. Pour obtenir une liste complète et les descriptions des diagnostics de modèle, consultez la section Interprétation des messages et diagnostics.

Pour l’outil Classification et régression boostées basées sur une forêt, le fichier .ssm inclut des arbres décisionnels, les caractéristiques du modèle, les diagnostics de validation, l’importance des variables principales et les diagnostics de plage de variables explicatives. Les erreurs OOB de modèle ne sont pas incluses, car ce diagnostic n’est pas pertinent pour effectuer de nouvelles prévisions et augmenterait de façon significative la taille du fichier .ssm. Les fichiers de modèle créés à l’aide du type de modèle boosté dégradé sont pris en charge dans ArcGIS Pro 3.2 et les versions ultérieures.

Pour plus d’informations, consultez la section Diagnostics et messages en sortie.

Pour l’outil Prévision de présence seule (MaxEnt), le fichier .ssm inclut des informations importantes sur le modèle entraîné, les caractéristiques et le résumé du modèle, les coefficients de régression, le résumé catégoriel (si des variables explicatives sont catégorielles) et les diagnostics de plage de variables explicatives pour les données d’entraînement. Les résultats de la validation croisée et le nombre de points de présence et d’arrière-plan ne sont pas inclus, car ils peuvent potentiellement être utilisés pour convertir les données sensibles utilisées pour entraîner le modèle, comme les localisations d’une espèce en danger. Pour plus d’informations, consultez la section Messages de géotraitement.

Bonnes pratiques

Les éléments suivants doivent être pris en compte lors de la création et de l’utilisation de fichiers .ssm :

  • Pour que le modèle soit plus transparent et pertinent pour le partage, utilisez l’outil Définir les propriétés du fichier de modèle de statistiques spatiales pour spécifier la description et l’unité pour chaque variable. La documentation des variables et de leur utilisation est importante pour la précision scientifique et la reproductibilité.
  • Bien que les fichiers .ssm n’incluent pas directement les données d’entraînement (seuls les résultats d’entraînement) et ne stockent pas les diagnostics de modèle les plus sensibles, la confidentialité et la sécurité des données constituent toujours un possible sujet de préoccupation. Des diagnostics de modèle complexes, comme la matrice de confusion, peuvent potentiellement être utilisés pour convertir certaines des données d’entraînement d’origine.
  • Lorsque vous utilisez un fichier .ssm créé par d’autres utilisateurs, vous devez examiner les propriétés à l’aide de l’outil Décrire le fichier de modèle de statistiques spatiales. Les descriptions de variable et unités sont particulièrement importantes, et vous pouvez avoir besoin de convertir manuellement les données en unités prises en charge par le modèle avant de les utiliser pour les prévisions. Par exemple, vous devrez peut-être convertir les valeurs de température de degrés Fahrenheit en degrés Celsius pour que les prévisions soient précises.

Modèle de données HDF5

Le fichier .ssm utilise le modèle de données HDF5 (Hierarchical Data Format version 5) pour stocker les résultats et les métadonnées du modèle. Le format HDF5 présente les avantages suivants :

  • Il stocke les données volumineuses dans une structure organisée qui peut être hautement compressée. Par exemple, il peut stocker un modèle de régression basée sur une forêt entraîné utilisant 600 000 entités et 10 000 arbres dans un fichier de moins de 20 Go. Un modèle de données moins efficace aurait du mal à stocker un résultat de modèle aussi complexe dans un fichier classique facilement partageable.
  • Le format HDF5 est un modèle de données auto-décrivant, ce qui signifie que vous pouvez joindre des métadonnées directement aux jeux de données au lieu de devoir séparer les données et les métadonnées en différents fichiers. Cette synchronisation permet aux données HDF5 d’être transparentes et accessibles sans avoir à gérer plusieurs fichiers qui doivent être conservés ensemble.
  • Le format HDF5 autorise la lecture et l’écriture haute performance des données. Par exemple, la création d’un fichier .ssm lors de l’utilisation d’un outil Statistiques spatiales n’augmentera pas de façon significative le temps d’exécution de l’outil. Si vous utilisez le modèle pour effectuer des prévisions avec de nouvelles données, il est rapidement accessible pour réduire le temps système.

En savoir plus sur le format HDF5

Outre les outils Définir les propriétés du fichier de modèle de statistiques spatiales, Décrire le fichier de modèle de statistiques spatiales et Prévision avec un fichier de modèle de statistiques spatiales, vous pouvez également examiner les fichiers .ssm en utilisant des bibliothèques HDF5 standard.

L’exemple de code Python suivant montre comment examiner et imprimer les propriétés d’un fichier .ssm à l’aide du paquetage h5py :

# Import necessary packages
import numpy as np
import h5py

spatialStatsModel = h5py.File(r'C:/MyData/MySSMFile.ssm', 'r')

# Get a list of keys of the variables:
ls = list(spatialStatsModel.keys())

# Get the attributes of the model:
attrs = list(spatialStatsModel.attrs)

# Print all the datasets and attributes
print("The variables in the model:")
for k in ls:
     print("{}---{}, --- {}".format(k, spatialStatsModel[k][()],
                             type(spatialStatsModel[k][()])))

print("The attributes in the model:")
for k in attrs:
     print("{}---{}, --- {}".format(k, spatialStatsModel.attrs.get(k),
                             type(spatialStatsModel.attrs.get(k))))

# Close the .ssm file
spatialStatsModel.close