Introducción a los archivos de modelos de estadísticas espaciales

Un archivo de modelo de estadística espacial (.ssm) es un archivo que contiene el modelo entrenado, propiedades y diagnósticos del modelo de un análisis realizado por varias herramientas del conjunto de herramientas Modelado de relaciones espaciales. Puede utilizar un archivo de modelo de estadística espacial para realizar predicciones utilizando nuevos datasets y compartirlo de forma segura con otras personas que puedan utilizarlo con sus datos. Por ejemplo, un ecologista especializado en fauna salvaje puede recopilar datos de campo de localizaciones conocidas de una especie amenazada y crear un modelo para predecir otras localizaciones probables de la especie dentro de su área de estudio. A continuación, puede compartir el archivo .ssm con otros ecologistas que pueden utilizarlo para predecir la localización de las especies en sus propias zonas de estudio. Dado que los datos utilizados para entrenar el modelo no se almacenan en el archivo .ssm, las ubicaciones originales altamente sensibles de las especies en peligro no se revelarán al compartir el archivo del modelo.

Para administrar y predecir con archivos .ssm, puede utilizar las siguientes herramientas:

  • Establecer propiedades del archivo de modelo de estadística espacial: establezca las propiedades de un archivo .ssm, incluidas las descripciones y unidades de las variables. Esto le permite explicar las variables del modelo y sus unidades para que otros puedan utilizar el archivo adecuadamente. Por ejemplo, puede especificar que una entidad de distancia explicativa representa distancias a hospitales medidas en millas estadounidenses para que otros sepan que solo deben utilizar el modelo para un tipo de datos específico.
  • Describir archivo de modelo de estadística espacial: visualice las propiedades de un archivo .ssm, incluido el método de análisis, los nombres de dataset, las propiedades y los diagnósticos del modelo. Esto le permite entender qué significa cada variable para que pueda emparejar correctamente todas las variables, datasets y unidades cuando utilice el archivo para hacer predicciones con nuevos datos.
  • Predecir con archivo de modelo de estadística espacial: utilice el archivo .ssm para realizar predicciones con nuevos datasets. Debe establecer una correspondencia entre cada variable o dataset del archivo .ssm y un nuevo dataset que tenga el mismo tipo y unidad. Por ejemplo, una variable explicativa del archivo del modelo puede requerir un ráster de valores de temperatura medidos en grados centígrados.

Puede crear un archivo .ssm utilizando el parámetro Archivo de salida de modelo entrenado en las siguientes herramientas:

Flujo de trabajo del archivo del modelo de estadísticas espaciales

Ejemplos de aplicación

Los siguientes escenarios describen flujos de trabajo analíticos en los que un archivo .ssm puede resultar de utilidad.

Escenario 1: Reutilizar el modelo para reducir el tiempo de entrenamiento

Si realiza modelizaciones analíticas con grandes datasets, el proceso de entrenamiento puede llevar mucho tiempo y requerir un hardware informático muy costoso. En muchos casos, también tendrá que entrenar el modelo varias veces para afinar los ajustes. Después de elegir los ajustes del modelo que producen los mejores resultados, no querrá repetir este proceso de entrenamiento para cada nuevo dataset que vaya a utilizar para hacer predicciones. La creación de un archivo .ssm con los resultados del entrenamiento inicial le permitirá reutilizarlo con todos los nuevos datasets sin necesidad de volver a entrenar el modelo. El uso del mismo modelo de entrenamiento también garantiza la coherencia de las predicciones para todos los nuevos datasets gracias al uso del mismo modelo de predicción subyacente.

Escenario 2: Compartir archivos de modelo entrenado

Puede compartir el archivo .ssm con otras personas que deseen utilizar el modelo con sus propios datos. Dado que no se puede acceder directamente a los datos utilizados para crear el modelo desde el archivo del modelo, puede compartirlo sin revelar los datos confidenciales que se utilizaron para entrenarlo. Antes de compartir el modelo, puede utilizar la herramienta Establecer propiedades del modelo de estadística espacial para agregar descripciones de variables y unidades de variables. Esto será útil para que otras personas sepan qué tipos de datos y qué unidades utilizar cuando hagan predicciones con el archivo. Tras recibir el archivo modelo, el destinatario puede ver las propiedades y los diagnósticos del modelo con la herramienta Describir archivo de modelo de estadística espacial y, a continuación, realizar predicciones con sus datos mediante la herramienta Predecir con archivo de modelo de estadística espacial.

Escenario 3: Automatizar el análisis de los servicios de datos de transmisión de datos

Cuando se trabaja con datos que se actualizan con regularidad, como un servicio de transmisión de datos sobre ubicaciones de incendios forestales, el uso de un archivo .ssm permite una automatización sencilla a medida que se dispone de nuevos datos. Cada vez que se actualicen los datos, podrá reutilizar rápidamente el archivo .ssm en la herramienta Predecir con archivo de modelo de estadística espacial con los datos actualizados.

Contenido de un archivo .ssm

El archivo de modelos almacena información exhaustiva sobre los modelos. Además de las descripciones de las variables y las unidades que se crean con la herramienta Establecer propiedades del modelo de estadística espacial, los archivos .ssm también contienen diagnósticos del modelo para investigar su precisión y fiabilidad.

ArcGIS Pro 3.3 y versiones posteriores permiten entrenar y predecir utilizando datos con tipos de campo ObjectID de 64 bits y Big Integer.

Para la herramienta Regresión lineal generalizada, el archivo .ssm incluye coeficientes y diagnósticos de regresión, como AICc, R2, R2 ajustado, Índice estadístico F conjunto y el Índice estadístico de Wald conjunto. Consulte la sección Interpretación de diagnósticos de mensajes para obtener una lista completa y descripciones de los diagnósticos de modelos.

Para la herramienta Clasificación y regresión basadas en bosque y potenciadas, el archivo .ssm incluye los árboles de decisión, las características del modelo, los diagnósticos de validación, la importancia de la variable principal y los diagnósticos del rango de variables explicativas. Los errores del modelo OOB (Out Of Bag) no se incluyen porque este diagnóstico no es relevante para realizar nuevas predicciones y aumentaría significativamente el tamaño del archivo .ssm. Los archivos de modelo creados utilizando el tipo de modelo de gradiente potenciado son compatibles con ArcGIS Pro 3.3 y versiones posteriores.

Consulte la sección Mensaje de salida y diagnósticos para obtener más información.

Para la herramienta Predicción de solo presencia (MaxEnt), el archivo .ssm incluye información importante sobre el modelo entrenado, características y resumen del modelo, coeficientes de regresión, resumen categórico (si alguna variable explicativa es categórica) y diagnósticos de rango de variables explicativas para los datos de entrenamiento. Los resultados de la validación cruzada y los recuentos de puntos de presencia y de fondo no se incluyen porque pueden utilizarse para aplicar ingeniería inversa a los datos sensibles utilizados para entrenar el modelo, como las ubicaciones de una especie en peligro de extinción. Consulte la sección Mensajes de geoprocesamiento para obtener más información.

Prácticas recomendadas

A la hora de crear y utilizar archivos .ssm, deben tenerse en cuenta las siguientes consideraciones:

  • Para que el modelo sea más transparente y significativo a la hora de compartirlo, utilice la herramienta Establecer propiedades del modelo de estadística espacial para especificar la descripción y la unidad de cada variable. La documentación de las variables y su uso es importante para la precisión científica y la reproducibilidad.
  • Aunque los archivos .ssm no empaquetan directamente los datos de entrenamiento (solo los resultados del entrenamiento) y no almacenan los diagnósticos más sensibles del modelo, la privacidad y seguridad de los datos sigue siendo un posible problema. Algunos diagnósticos de modelos complejos, como la matriz de confusión, pueden utilizarse para aplicar ingeniería inversa a algunos de los datos de entrenamiento originales.
  • Cuando utilice un archivo .ssm creado por otras personas, deberá investigar las propiedades utilizando la herramienta Describir archivo de modelo de estadística espacial. Las descripciones y unidades de las variables son especialmente importantes, y es posible que tenga que convertir manualmente los datos a las unidades asumidas por el modelo antes de utilizarlos para las predicciones. Por ejemplo, es posible que tenga que convertir los valores de temperatura de grados Fahrenheit a grados centígrados para que las predicciones sean precisas.

Modelo de datos HDF5

El archivo .ssm utiliza el modelo de datos jerárquicos versión 5 (HDF5) para almacenar los resultados y metadatos del modelo. HDF5 presenta las siguientes ventajas:

  • HDF5 almacena datos de gran tamaño en una estructura organizada que puede comprimirse considerablemente. Por ejemplo, puede almacenar un modelo de regresión basado en bosques entrenado con 600.000 entidades y 10.000 árboles en un archivo de menos de 20 GB. Un modelo de datos menos eficiente tendría dificultades para almacenar el resultado de un modelo tan complejo en un archivo convencional que pudiera compartirse cómodamente.
  • HDF5 es un modelo de datos autodescriptivo, lo que significa que permite adjuntar metadatos directamente a los datasets en lugar de tener que separar los datos y los metadatos en archivos diferentes. Esta sincronización permite que los datos HDF5 sean transparentes y accesibles sin necesidad de gestionar varios archivos que deben mantenerse juntos.
  • HDF5 permite una lectura y escritura de datos de alto rendimiento. Por ejemplo, elegir crear un archivo .ssm cuando se utiliza una herramienta de estadísticas espaciales no aumentará el tiempo de ejecución de la herramienta de forma apreciable. Cuando se utiliza el modelo para hacer predicciones con datos nuevos, se puede acceder rápidamente al modelo para minimizar la sobrecarga.

Más información sobre HDF5

Además de utilizar las herramientas Establecer las propiedades del archivo del modelo de estadísticas espaciales, Describir archivo de modelo de estadística espacial y Predecir con archivo de modelo de estadística espacial, también puede inspeccionar archivos .ssm utilizando bibliotecas HDF5 estándar.

El siguiente código Python de ejemplo muestra cómo inspeccionar e imprimir propiedades de un archivo .ssm utilizando el paquete h5py:

# Import necessary packages
import numpy as np
import h5py

spatialStatsModel = h5py.File(r'C:/MyData/MySSMFile.ssm', 'r')

# Get a list of keys of the variables:
ls = list(spatialStatsModel.keys())

# Get the attributes of the model:
attrs = list(spatialStatsModel.attrs)

# Print all the datasets and attributes
print("The variables in the model:")
for k in ls:
     print("{}---{}, --- {}".format(k, spatialStatsModel[k][()],
                             type(spatialStatsModel[k][()])))

print("The attributes in the model:")
for k in attrs:
     print("{}---{}, --- {}".format(k, spatialStatsModel.attrs.get(k),
                             type(spatialStatsModel.attrs.get(k))))

# Close the .ssm file
spatialStatsModel.close