Introducción a los archivos de modelo de estadística espacial

Un archivo de modelo de estadística espacial (.ssm) es un archivo que contiene el modelo entrenado, las propiedades y el diagnóstico de modelo de un análisis realizado por varias herramientas del conjunto de herramientas Modelado de relaciones espaciales. Puede utilizar un archivo de modelo de estadística espacial para realizar predicciones con nuevos datasets y compartirlo de forma segura con otros usuarios que puedan utilizarlo con sus datos. Por ejemplo, un ecólogo de la vida salvaje puede recopilar datos de campo de ubicaciones conocidas de una especie en peligro y crear un modelo para predecir otras posibles ubicaciones de la especie dentro de su área de estudio. A continuación, puede compartir el archivo .ssm con otros ecólogos que puedan utilizarlo para predecir ubicaciones de la especie dentro de sus propias áreas de estudio. Dado que los datos utilizados para entrenar el modelo no están almacenados en el archivo .ssm, las ubicaciones originales muy sensibles de la especie en peligro no se mostrarán compartiendo el archivo de modelo.

Puede usar las siguientes herramientas para administrar y predecir con archivos .ssm:

  • Establecer propiedades del archivo de modelo de estadística espacial: establezca las propiedades de un archivo .ssm, incluidas las descripciones de las variables y las unidades. Así, podrá explicar las variables del modelo y sus unidades para que otras personas puedan utilizar el archivo adecuadamente. Por ejemplo, puede especificar que una entidad de distancia explicativa represente distancias hasta hospitales medidas en millas de EE. UU. para que otras personas puedan saber utilizar solo el modelo para un tipo de datos concreto.
  • Describir archivo de modelo de estadística espacial: vea las propiedades de un archivo .ssm, incluidos el método de análisis, los nombres de dataset, las propiedades y los diagnósticos de modelo. Así, puede entender lo que significa cada variable para que pueda hacer coincidir correctamente todas las variables, datasets y unidades cuando utiliza el archivo para hacer predicciones con nuevos datos.
  • Predecir con archivo de modelo de estadística espacial: utilice el archivo .ssm para realizar predicciones con nuevos datasets. Debe hacer coincidir cada variable o dataset del archivo .ssm con un nuevo dataset que tenga el mismo tipo y unidad. Por ejemplo, una variable explicativa del archivo de modelo puede requerir un ráster de valores de temperaturas medidos en grados centígrados.

Puede crear un archivo .ssm con el parámetro Archivo de modelo entrenado de salida en las siguientes herramientas:

Flujo de trabajo del archivo del modelo de estadística espacial

Aplicaciones de ejemplo

En los siguientes escenarios se describen flujos de trabajo analíticos en los que un archivo .ssm puede ser útil.

Escenario 1: reutilizar el modelo para reducir el tiempo de entrenamiento del modelo

Si realiza un modelado analítico con datasets grandes, el proceso de entrenamiento puede ser muy lento y requerir hardware informático costoso. En muchos casos, también necesitará entrenar el modelo varias veces para ajustar la configuración. Después de elegir la configuración del modelo que proporcione los mejores resultados, no deseará repetir este proceso de entrenamiento para cada dataset futuro que vaya a utilizar para hacer predicciones. Crear un archivo .ssm con los resultados de entrenamiento iniciales le permitirá reutilizarlo con todos los datasets futuros sin necesidad de volver a entrenar el modelo. Usar el mismo modelo de entrenamiento también garantiza la coherencia de las predicciones para todos los datasets futuros utilizando el mismo modelo de predicción subyacente.

Escenario 2: compartir archivos de modelo entrenados con otras personas

Puede compartir el archivo .ssm con otros usuarios que deseen usar el modelo con sus propios datos. Como los datos utilizados para crear el modelo no son accesibles directamente desde el archivo de modelo, puede compartirlos sin revelar datos confidenciales utilizados para entrenarlos. Antes de compartir el modelo, puede utilizar la herramienta Establecer propiedades del modelo de estadística espacial para agregar descripciones de variable y unidades de variable. Será útil para que otras personas sepan qué tipos de datos y qué unidades utilizar al realizar predicciones con el archivo. Después de recibir el archivo de modelo, el destinatario puede ver las propiedades y diagnósticos de modelo con la herramienta Describir archivo de modelo de estadística espacial y, a continuación, hacer predicciones con sus datos mediante la herramienta Predecir con archivo de modelo de estadística espacial.

Escenario 3: automatizar el análisis de los servicios de datos de transmisión

Al trabajar con datos que se actualizan periódicamente, por ejemplo, un servicio de datos de transmisión de ubicaciones de incendios forestales, el uso de un archivo .ssm permite una automatización sencilla a medida que se dispongan de nuevos datos. Cada vez que se actualizan los datos, puede reutilizar rápidamente el archivo .ssm de la herramienta Predecir con archivo de modelo de estadística espacial con los datos actualizados.

Contenido de un archivo .ssm

Los archivos .ssm almacenan información completa acerca de los modelos. Además de las descripciones de variables y las unidades creadas por la herramienta Establecer propiedades del modelo de estadística espacial, los archivos .ssm también contienen diagnósticos de modelo para investigar la precisión y fiabilidad del modelo.

En el caso de la herramienta Regresión lineal generalizada, el archivo .ssm incluye los coeficientes y diagnósticos de regresión como AICc, R2, R2 ajustado, índice estadístico F conjunto e índice estadístico de Wald conjunto. Consulte la sección Interpretar el diagnóstico del mensaje para obtener una lista y descripciones completas de los diagnósticos del modelo.

Para la herramienta Clasificación y regresión basadas en bosque, el archivo .ssm incluye árboles de decisión, características del modelo, diagnósticos de validación, importancia variable superior y diagnósticos de rango de variables explicativas. No se incluyen errores de modelo fuera de bolsa (OOB) porque este diagnóstico no es relevante para hacer nuevas predicciones y aumentaría significativamente el tamaño del archivo .ssm. Consulte la sección Generar mensajes y diagnósticos para obtener más información.

Para la herramienta Predicción de solo presencia (MaxEnt), el archivo .ssm incluye información importante sobre el modelo entrenado, las características del modelo y el resumen, coeficientes de regresión, resumen de categorías (si alguna variable explicativa es de categorías) y diagnósticos de rango de variable explicativa para datos de entrenamiento. Los resultados de la validación cruzada y los recuentos de puntos de presencia y de fondo no se incluyen porque podrían utilizarse para someter los datos confidenciales utilizados para entrenar el modelo a ingeniería inversa, como las ubicaciones de una especie en peligro. Consulte la sección Mensajes de geoprocesamiento para obtener más información.

Mejores prácticas

Se deben tener en cuenta las siguientes consideraciones al crear y utilizar archivos .ssm:

  • Para que el modelo sea más transparente y significativo para el uso compartido, utilice la herramienta Establecer propiedades del modelo de estadística espacial para especificar la descripción y la unidad de cada variable. La documentación de las variables y su uso es importante para la precisión y la reproducibilidad con fines científicos.
  • Aunque los archivos .ssm no empaquetan directamente los datos de entrenamiento (solo los resultados de entrenamiento) y no almacenan los diagnósticos de modelo más confidenciales, la privacidad y la seguridad de los datos siguen siendo una posible preocupación. Algunos diagnósticos de modelo complejos, como la matriz de confusión, se podrían utilizar para someter a ingeniería inversa algunos de los datos de entrenamiento originales.
  • Cuando utilice un archivo .ssm creado por otros usuarios, debe investigar las propiedades con la herramienta Describir archivo de modelo de estadística espacial. Las descripciones de variables y las unidades son especialmente importantes, y es posible que deba convertir manualmente los datos a las unidades que asume el modelo antes de su uso para las predicciones. Por ejemplo, es posible que deba convertir valores de temperatura de grados Fahrenheit a grados centígrados para que las predicciones sean precisas.

Modelo de datos HDF5

El archivo .ssm utiliza el modelo de datos Formato de datos jerárquicos versión 5 (HDF5) para almacenar los resultados y metadatos del modelo. HDF5 tiene estas ventajas:

  • HDF5 almacena datos grandes en una estructura organizada muy comprimible. Por ejemplo, puede almacenar un modelo de regresión basado en bosque entrenado con 600.000 entidades y 10.000 árboles en un archivo que tenga menos de 20 GB. A un modelo de datos menos eficiente le costaría almacenar un resultado de modelo tan complejo en un archivo convencional que se pueda compartir cómodamente.
  • HDF5 es un modelo de datos autodescriptivo, lo que significa que puede adjuntar metadatos directamente a los datasets en lugar de tener que separar los datos y metadatos en archivos diferentes. Esta sincronización permite que los datos HDF5 sean transparentes y accesibles sin necesidad de administrar varios archivos que se deben mantener juntos.
  • HDF5 permite la lectura y escritura de datos de alto rendimiento. Por ejemplo, si elige crear un archivo .ssm cuando utilice una herramienta Estadística espacial no aumentará el tiempo de ejecución de la herramienta en una cantidad significativa. Al utilizar el modelo para realizar predicciones con datos nuevos, se puede acceder rápidamente al modelo para minimizar la sobrecarga.

Más información sobre HDF5

Además de las herramientas Establecer propiedades del archivo de modelo de estadística espacial, Describir archivo de modelo de estadística espacial y Predecir con archivo de modelo de estadística espacial, también puede inspeccionar archivos .ssm con bibliotecas de HDF5 estándar.

El siguiente ejemplo de código de Python muestra cómo inspeccionar e imprimir las propiedades de un archivo .ssm con el paquete h5py:


# Import necessary packages
import numpy as np
import h5py

spatialStatsModel = h5py.File(r'C:/MyData/MySSMFile.ssm', 'r')

# Get a list of keys of the variables:
ls = list(spatialStatsModel.keys())

# Get the attributes of the model:
attrs = list(spatialStatsModel.attrs)

# Print all the datasets and attributes
print("The variables in the model:")
for k in ls:
     print("{}---{}, --- {}".format(k, spatialStatsModel[k][()],
                             type(spatialStatsModel[k][()])))

print("The attributes in the model:")
for k in attrs:
     print("{}---{}, --- {}".format(k, spatialStatsModel.attrs.get(k),
                             type(spatialStatsModel.attrs.get(k))))

# Close the .ssm file
spatialStatsModel.close