La herramienta Predicción solo de presencia (MaxEnt) utiliza un enfoque de entropía máximo (MaxEnt) para estimar la probabilidad de presencia de un fenómeno. La herramienta utiliza puntos de presencia conocidos y variables explicativas en forma de campos, rásteres o entidades de distancia para proporcionar una estimación de la presencia en un área de estudio. Se puede utilizar el modelo entrenado para predecir la presencia en distintos datos si se conocen las variables explicativas correspondientes. A diferencia de otros métodos que presuponen o requieren explícitamente ubicaciones de ausencia definidas, Predicción de solo presencia se puede aplicar a problemas de predicción en los que solo se conoce la presencia del evento.
Potenciales aplicaciones
Aunque los ejemplos comunes están relacionados con el modelado de la presencia de especies con fines ecológicos y de conservación, los problemas de predicción de la presencia abarcan distintos dominios y aplicaciones:
- Un ecologista de la fauna silvestre ha recogido datos de campo sobre los lugares de presencia observados de una especie vegetal. Debe estimar la presencia de la especie en una zona de estudio más amplia. Utilizando los lugares de presencia conocidos y proporcionando los factores subyacentes en forma de rásteres, el ecólogo puede modelar la presencia de la especie y crear un mapa de los lugares previstos donde es más probable que se encuentre la especie.
- Un investigador quiere comprender el impacto que tendrá el cambio climático en el hábitat de una especie sensible. Para ello, elabora un modelo de presencia a partir de los lugares de aparición conocidos y de una serie de variables explicativas, entre las que se incluyen diversos factores relacionados con el clima, como la temperatura y las precipitaciones. Utilizando superficies rasterizadas del cambio climático proyectado, el investigador modela la distribución estimada de las especies a medida que se observan los impactos del cambio climático en las variables explicativas, recibiendo una estimación del nuevo hábitat de las especies tras los efectos proyectados del cambio climático.
- Un analista de riesgo de inundaciones desea estimar la probabilidad de inundaciones tras el paso de huracanes en un área de estudio. Como complemento de las imágenes aéreas de alta resolución durante el evento, el analista utiliza características físicas y socioeconómicas distribuidas espacialmente junto con datos colectivas para modelar la presencia de inundaciones. El analista utiliza este modelo para identificar dónde es más probable que la gente necesite ayuda inmediata en caso de emergencia tras el huracán (Mobley, et. al, 2019).
- Un epidemiólogo modela la aparición de nuevas enfermedades infecciosas. Utilizan las ubicaciones de saltos interespecíficos de patógenos conocidas existentes y los factores ecológicos, como la temperatura, la precipitación, la cobertura del suelo, el índice diferencial de vegetación normalizado (NDVI) y la duración del sol como indicadores en un modelo. El modelo se utiliza para crear una superficie de riesgo preliminar que refleje la adecuación para la aparición de nuevas enfermedades infecciosas (Du, et.al., 2014).
MaxEnt
Una faceta de los problemas de análisis espacial se centra en el modelado y la estimación de la ocurrencia de un evento a través de la geografía. Aunque los ejemplos más comunes están relacionados con la modelización de la presencia de especies con fines ecológicos y de conservación, los problemas de predicción de presencia abarcan una gran variedad de dominios y aplicaciones.
En algunos casos, los datos de presencia se registran como un recuento de eventos de presencia en las celdas cuadradas: cada observación incrementa un recuento en su ubicación y se puede utilizar una variedad de enfoques de modelado para modelar este recuento, como el método de Poisson de la herramienta Regresión lineal generalizada. En otros casos, los datos explícitos de presencia y ausencia se registran a intervalos específicos en lugares conocidos, como las estaciones de control de la calidad del aire que registran niveles insalubres de ozono. En estos casos, modelar la presencia y ausencia es un problema de clasificación binario que puede beneficiarse de una variedad de métodos, como la regresión logística.
En el caso de la modelización de especies ecológicas y de otros ámbitos, en los que a menudo se registra la presencia de un evento, pero rara vez la ausencia del mismo, la falta de datos explícitos de ausencia hace que sea difícil modelizar la presencia y la ausencia mediante métodos de predicción multiclase.
MaxEnt no presupone que no se requiere ausencia. MaxEnt es un método general para realizar predicciones o inferencias a partir de información incompleta (Phillips et al. 2006). Dado un conjunto de lugares de presencia conocidos y unas variables explicativas dadas que describen el área de estudio, MaxEnt contrasta las condiciones entre los lugares de presencia y el área de estudio para estimar una superficie de probabilidad de presencia.
En su núcleo, MaxEnt funciona con tres entradas principales:
- La ubicación de puntos de presencia conocidos.
- Un área de estudio.
- Variables explicativas, o covariables, que describen los factores medioambientales que pueden estar relacionados con la presencia en el área de estudio.
El área de estudio define un paisaje donde la presencia es posible y se suele representar mediante un conjunto de ubicaciones de presencia desconocidas. Estas ubicaciones también se conocen como puntos de fondo y el método MaxEnt las utiliza para contrastar las condiciones entre las ubicaciones de presencia y el área de estudio para estimar una superficie de probabilidad de presencia.
La superficie de probabilidad de presencia puede adoptar muchas formas, y MaxEnt selecciona la forma que más se parece al entorno del que se ha extraído, al tiempo que reduce todas las demás hipótesis (o maximiza su entropía). "Está de acuerdo con todo lo que se conoce, pero evita cuidadosamente asumir todo lo que no se conoce." (Jaynes 1990).
Además de su enfoque de modelización, MaxEnt incluye pasos para realizar la preparación de los datos de entrada, la transformación de las variables explicativas, la preparación de los datos de salida y la validación del modelo, lo que lo convierte en un método robusto para modelizar los fenómenos de presencia.
Uso de la herramienta Predicción de solo presencia (MaxEnt)
La herramienta Predicción de solo presencia incorpora aspectos de los flujos de trabajo de preparación de datos, modelización, selección de variables y predicción de MaxEnt. Esta sección proporciona información importante sobre cada parámetro para ayudarle a crear modelos más adecuados.
Especifica ubicaciones de presencia conocida y puntos de fondo
La predicción de presencia requiere datos de entrada que representen lugares de presencia conocidos. El parámetro Entidades de puntos de entrada se utiliza para designar un dataset existente con estas ubicaciones.
Las entidades de puntos de entrada no contienen puntos de fondo
Si sus entidades de puntos de entrada no incluyen puntos de fondo, puede dejar desactivado el parámetro Contiene puntos de fondo.
Cuando el parámetro Contiene puntos de fondo está desactivado, la herramienta utiliza los centroides de celda más gruesos de los valores intersecantes del parámetro Rásteres de entrenamiento explicativos en el área de estudio para crear automáticamente puntos de fondo.
Puede usar el parámetro Entidades de entrenamiento de salida para crear una salida que incluya puntos de fondo creados por la herramienta.
Las entidades de puntos de entrada contienen puntos de fondo
Si las entidades de puntos de entrada contienen puntos de fondo, puede utilizar los parámetros Contiene puntos de fondo y Campo indicador de presencia con valores de campo que designen cada ubicación como presencia (1) o fondo (0).
La proporción de puntos de fondo con respecto a los puntos de presencia tiene un impacto significativo en los resultados de la predicción. Tanto si los puntos de fondo se proporcionan en sus características de puntos de entrada como si los crea la herramienta, se recomienda que pruebe y compare los diagnósticos de clasificación de sus modelos utilizando diferentes cantidades de puntos de fondo. Puede utilizar el parámetro Simplificación espacial para reducir la cantidad de puntos de fondo en el análisis. Consulte las secciones Definir un área de estudio y Reducir el sesgo de la muestra mediante simplificación espacial para obtener más información.
Nota:
La herramienta requiere al menos dos puntos de presencia y dos puntos de fondo en los datos de entrenamiento para crear un modelo.
Especificar variables explicativas
Además de los puntos de presencia y los puntos de fondo conocidos, la herramienta utiliza variables explicativas para crear el modelo de predicción. Hay tres formas de especificar las variables explicativas: utilizando rásteres, utilizando campos en las entidades de punto de entrada y utilizando entidades de distancia. En el caso de los rásteres y los campos, las variables explicativas pueden ser continuas o de categorías. Para las variables explicativas de categorías, la herramienta requiere un mínimo de tres puntos de datos por categoría.
Uso de variables explicativas de rásteres
Puede usar rásteres para representar condiciones en el paisaje que puedan ser indicadores útiles de presencia de un evento. Por ejemplo, una especie vegetal puede depender en gran medida de un rango de elevación concreto; entonces puede utilizar un ráster de elevación para asociar los valores de elevación con las ubicaciones de presencia de la planta en el modelo.
Active la casilla De categorías cuando los rásteres representen datos de categorías, como las clases de cobertura de uso del suelo.
La utilización de variables explicativas a partir de rásteres es necesaria cuando las entidades de los puntos de entrada no incluyen puntos de fondo, ya que cada celda del área de estudio se utilizará para crear un punto de fondo.
Los tamaños de celda de los valores del parámetro Rásteres de entrenamiento explicativos tienen un impacto significativo en el tiempo de procesamiento: cuanto mayor sea la resolución, mayor será el tiempo de procesamiento. Por esta razón, la herramienta tiene un límite de 100 millones de celdas totales en el área de interés. Puede utilizar la herramienta Volver a muestrear para disminuir la resolución espacial del ráster, lo que da como resultado un menor número de celdas y un tiempo de procesamiento más rápido.
Uso de variables explicativas de campos
Use el parámetro Variables de entrenamiento explicativas para especificar campos cuyos atributos se usan como variables explicativas al modelar la presencia del fenómeno. Esta opción solo está disponible cuando las entidades de punto de entrada incluyen puntos de fondo y el parámetro Contiene puntos de fondo está activado.
Use la casilla de verificación De categorías para designar si un campo proporcionado en el parámetro Variables de entrenamiento explicativas es de categorías.
Uso de variables explicativas de entidades de distancia
Use el parámetro Entidades de distancia de entrenamiento explicativas para designar entidades cuya proximidad a las entidades de puntos de entrada se usará como variables explicativas. Esta opción solo está disponible cuando las entidades de punto de entrada incluyen puntos de fondo y el parámetro Contiene puntos de fondo está activado.
Se usan entidades de distancia para crear automáticamente variables explicativas calculando una distancia desde las entidades de punto de entrada a la entidad proporcionada más cercana. Si el parámetro Entidades de distancia de entrenamiento explicativas son polígonos o líneas, los atributos de distancia se calculan como la distancia entre los segmentos más cercanos del par de entidades. Las distancias se calculan de forma diferente para los polígonos y las líneas; consulte Cómo calculan la distancia las herramientas de proximidad para obtener más detalles.
Debido a consideraciones de rendimiento, el parámetro Entidades de distancia de entrenamiento explicativas no está disponible si las entidades de puntos de entrada no incluyen puntos de fondo. Sin embargo, puede utilizar entidades de distancia cuando utilice puntos solo de presencia mediante la herramienta Acumulación de distancia para crear rásteres de distancia. Los rásteres de distancia contienen celdas con valores que describen la distancia entre la celda y la entidad más cercana en una fuente de datos especificada. Una vez creados los rásteres de distancia, puede usarlos como entradas en el parámetro Rásteres de entrenamiento explicativos para las entidades de puntos de entrada de solo presencia.
Realizar la preparación de datos en las entradas del modelo
La herramienta incluye pasos de preparación de datos para las entidades de puntos de entrada y las variables explicativas proporcionadas. La preparación de los datos incluye la transformación de las variables mediante el uso de funciones de base, la especificación de un área de estudio y la reducción del sesgo del muestreo mediante el uso de una simplificación espacial.
Transformar variables explicativas utilizando funciones de base
Las características del paisaje se utilizan como posibles variables explicativas en MaxEnt. En algunos casos, las condiciones que promueven la presencia pueden tener relaciones complejas con la ocurrencia del evento. Para ayudar a incorporar más formas de relación intrincadas en el modelo, la herramienta transforma (o expande) estas variables explicativas candidatas mediante funciones de base.
Puede seleccionar varias funciones base en una ejecución de la herramienta con el parámetro Expansiones de variables explicativas (Funciones de base), para luego utilizar en el modelo todas las versiones transformadas de las variables explicativas. Las variables de mejor rendimiento se seleccionan mediante regularización, un método de selección variable que equilibra las contrapartidas entre el ajuste del modelo y la complejidad del modelo.
Hay cinco tipos de funciones base, que proporcionan diferentes consideraciones a la hora de intentar modelar fenómenos complejos.
- Original (lineal): aplica una función de base lineal a las variables de entrada y se puede utilizar cuando no es necesario aplicar una transformación. Esta es la opción predeterminada.
Un caso de uso de muestra es utilizar la herramienta con el objetivo de modelar la presencia de una especie que se sabe que requiere acceso a un curso de agua. Utilizar la función de base lineal para una variable que corresponde a la distancia a un curso de agua permite al modelo estimar la relación lineal entre la presencia de especies y la distancia a un curso de agua. El coeficiente resultante se puede utilizar para interpretar la relación lineal marginal antes de probar formas de relación más complejas.
Use la función de base Original (lineal) cuando la interpretabilidad sea una prioridad en el modelo. Al no producirse ninguna transformación, la interpretación de los coeficientes en el contexto de su efecto sobre la probabilidad de presencia es más fácil con el método lineal.
Nota:
Las variables explicativas categóricas solo permitirán el uso de la función de base Original (lineal). Cuando se aplican variables explicativas continuas y de categorías, se pueden elegir múltiples funciones base, pero a las variables categóricas sólo se les aplicará la función base Original (Linear).
- Cuadrado (Cuadrática): transforma cada valor de variable explicativa al cuadrarlo, lo que resulta en una relación cuadrática entre la variable explicativa y la respuesta de presencia. En algunos ámbitos, como la distribución de especies, las respuestas de las especies a las condiciones ambientales suelen ser no lineales y unimodales (Austin 2002, 2007), y una forma cuadrática puede representar mejor las relaciones.
En algunos casos, mientras que una relación cuadrática puede ser inherente a la relación de una variable explicativa con un evento de respuesta, los datos de muestreo en las características del punto de entrada pueden representar sólo una faceta de la relación parabólica. Por ejemplo, una especie tropical puede tener una relación parabólica con la temperatura: las temperaturas extremadamente frías dan lugar a una baja probabilidad de presencia, las temperaturas tropicales dan lugar a una alta probabilidad, y las temperaturas extremadamente cálidas dan lugar a una baja probabilidad de nuevo. Si los datos de muestreo de esta especie no incluyen temperaturas frígidas, la relación puede representarse simplemente con una relación lineal (Merow et al. 2013).
- Interacción por pares (Producto)-: realiza una multiplicación por pares en las variables explicativas. Por ejemplo, si se seleccionan tres variables, A, B y C, esta función de base producirá variables transformadas correspondientes a los resultados de A × B, A × C y B × C. Estas variables transformadas se conocen comúnmente como términos de interacción y pueden ser representaciones útiles de relaciones complejas que dependen de las condiciones entre varias variables. Por ejemplo, un término de interacción que incluya tanto los ingresos como la distancia a una tienda puede ser un indicador más marcado de la clientela que si se utiliza cada variable por separado.
Aunque las variables explicativas transformadas del método Interacción por pares (Producto) pueden ser útiles en el modelado de la interacción entre condiciones medioambientales, la interpretabilidad del modelo puede ser más difícil, ya que los términos de interacción dificultan la separación de los efectos de una variable explicativa frente a la otra. Esto es muy importante cuando se evalúa el coeficiente de cada variable explicativa y los gráficos de respuesta parcial.
Nota:
La opción Interacción por pares (Producto) solo está disponible cuando se eligen varias variables explicativas continuas.
- Paso discreto (Umbral): convierte la variable explicativa continua en una variable explicativa binaria aplicando una función escalonada: a los valores por debajo de un umbral se les asigna el valor 0 y a los valores por encima del umbral se les asigna el valor 1.
El parámetro Número de nudos controla cuántos umbrales se crean, controla cuántos umbrales se crean, que luego se utilizan para crear múltiples variables explicativas binarias transformadas utilizando cada umbral. Se aplican umbrales entre los valores mínimos y máximos de la variable explicativa para crear segmentos de igual longitud.
Un ejemplo de caso de uso es la ejecución de la Predicción de solo presencia con el objetivo de estudiar el impacto de las temperaturas cálidas en la ocurrencia (por ejemplo: por encima de 32 grados Celsius o no). Mediante la función de base del umbral, la variable continua de la temperatura se separa en valores de 1 (por encima de 32 grados) y 0 (por debajo de 32 grados) y permite interpretar cada condición en relación con la presencia.
- Paso suavizado (Bisagra): convierte la variable explicativa continua en dos segmentos, un segmento estático (todo ceros o unos) y una función lineal (creciente o decreciente), separados por un umbral llamado nudo. Se puede realizar utilizando una bisagra hacia adelante (empezar con ceros entre el mínimo y el nudo, y luego aplicar una función lineal creciente entre el nudo y el máximo) o una bisagra hacia atrás (empezar con una función lineal creciente entre el mínimo y el nudo, y luego aplicar todos los unos entre el nudo y el máximo).
El parámetro Número de nudos controla cuántas transformaciones de variables explicativas se producen, lo que resulta en (Número de nudos - 1) * 2 variables explicativas transformadas. La razón de esta fórmula es que el número de nudos especifica el número de intervalos iguales que se utilizan entre los valores mínimo y máximo de la variable explicativa (restando uno al número de nudos), y se crean tanto variables transformadas en bisagra hacia delante como variables transformadas en bisagra hacia atrás (multiplicando por 2).
Un ejemplo de caso de uso es ejecutar la herramienta con el objetivo de estudiar el impacto de la variación de las temperaturas cálidas (por ejemplo: mantener todos los valores por encima de 32 grados Celsius e ignorar todo lo que esté por debajo). La función de base de bisagra permitiría que la variable mantuviera la variación por encima del nudo (aplicando una función lineal para todos los valores por encima de 32 grados), al tiempo que reduciría el ruido de todos los datos por debajo del nudo (convirtiendo en 0 todos los valores por debajo de 32 grados).
Las opciones Paso suavizado (Bisagra) y Paso discreto (Umbral) son funciones a trozos mutuamente excluyentes; cuando se selecciona una no se puede seleccionar la otra. Cuando se selecciona una de ellas, se recomienda probar varias ejecuciones del modelo y ajustar el valor del parámetro Número de nudos para interpretar cómo estos umbrales ayudan o dificultan el modelo.
La herramienta utiliza varias versiones transformadas de cada variable explicativa al intentar modelar condiciones complejas que promueven la presencia de un fenómeno. Por ejemplo, un modelo que utiliza temperaturas medias anuales para estimar la probabilidad de presencia de una especie de tortuga del desierto puede utilizar diferentes expansiones variables para describir una relación compleja entre la temperatura y los hábitats de tortugas del desierto.
El gráfico de respuesta parcial anterior muestra la respuesta marginal de la probabilidad de presencia a medida que cambia la temperatura media anual. Si mantiene igual todos los demás factores, la probabilidad de presencia hace lo siguiente:
- Aumenta de manera lineal a medida que la temperatura media anual incrementa entre 0 y 15 grados centígrados
- Disminuye gradualmente entre 15 y 21 grados centígrados
- Disminuye rápidamente para los valores de temperatura media anual por encima de 21 grados centígrados
La herramienta utiliza varias funciones básicas para generar las expansiones de variables explicativas que representan mejor este tipo de relación, seleccionando las transformaciones más útiles mediante un proceso denominado regularización.
Regularización
MaxEnt puede ser propenso a sobreajustar los datos de entrenamiento. Para reducir este problema, el método aplica una forma de regularización que penaliza los coeficientes de las variables explicativas grandes, obligando al modelo a centrarse en las variables explicativas más importantes (Phillips et al. 2006).
Una forma de conceptualizar la regularización es que un presupuesto limitado de coeficientes es compartido por todas las variables explicativas aportadas al modelo. Al reducir los coeficientes para satisfacer el presupuesto, varias variables explicativas con coeficientes bajos se reducen a cero y, por tanto, se eliminan del modelo. El efecto de esto es que el modelo retiene menos variables explicativas, manteniendo solo las que tenían coeficientes lo suficientemente altos como para sobrevivir incluso bajo un presupuesto de coeficientes. Con un número reducido de variables explicativas, el modelo tiene menos probabilidades de sobreajustarse y es más fácil de interpretar. Siguiendo el principio de parsimonia, la explicación más sencilla de un fenómeno suele ser la mejor (Phillips et al., 2006).
La regularización tiene el efecto agregado de ayudar a abordar la multicolinealidad: a medida que se agregan variables explicativas relacionadas, el valor total del coeficiente que incluiría una sola variable se comparte ahora entre múltiples variables correlacionadas, lo que da lugar a coeficientes más bajos para las variables multicolineales. Como la regularización penaliza los valores de los coeficientes restantes, es más probable que los coeficientes de las variables multicolineales se reduzcan a cero y se eliminen del modelo.
Definir un área de estudio
Se debe especificar un área de estudio cuando los puntos de fondo no forman parte de sus entidades de puntos de entrada y define dónde es posible la presencia. Se pueden utilizar tres opciones del parámetro Área de estudio para definir el área de estudio:
- Envoltura convexa: utiliza la envoltura convexa de las entidades de punto de entrada.
- Extensión de ráster: la extensión de la intersección de los rásteres proporcionada en el parámetro Rásteres de entrenamiento explicativos.
- Polígono de área de estudio: utiliza un límite personalizado de clase de entidad poligonal, proporcionado en el parámetro Polígono de área de estudio.
El área de estudio tiene un impacto significativo en el resultado del modelo: la extensión del área de estudio determina las celdas ráster de los rásteres de formación explicativos que se utilizarán para crear puntos de fondo. Los puntos de fondo establecen las condiciones del entorno en las que la presencia es posible y se contrastan con las condiciones del entorno en las que se observa la presencia. Los resultados de la predicción serán diferentes según cambie la proporción de puntos de fondo y de presencia.
La zona de estudio establece la extensión de los datos de entrenamiento para el modelo. Las entidades de los puntos de entrada en este escenario representan los lugares en los que se ha observado la presencia, y el área de estudio representa los lugares en los que la presencia es posible (aunque no necesariamente observada). Por ello, se recomienda que el área de estudio para un análisis se guíe por el diseño del estudio de los puntos de presencia recogidos. Por ejemplo, si una encuesta de captura de datos de presencia inspeccionó a fondo una región de 100 kilómetros cuadrados, el polígono que delimita la región puede utilizarse como área de estudio.
En algunos casos, diferentes áreas de estudio para un determinado conjunto de entidades de puntos de entrada pueden ser útiles para explorar diferentes dinámicas de un fenómeno (Elith et al. 2011, 51-52).
Reducir el sesgo de la muestra mediante simplificación espacial
El sesgo de muestreo se produce cuando las áreas muestreadas representadas en las entidades de los puntos de entrada presentan clústeres espaciales distintos. Por ejemplo, las encuestas de recogida de datos suelen realizarse cerca de carreteras, caminos y otras condiciones que favorecen la recogida de datos. El efecto del sesgo de muestreo es que los datos que pretenden retratar la presencia de un fenómeno se confunden con los datos que muestran la presencia de condiciones adecuadas para la recogida de datos. El sesgo del muestreo es inherente a la mayoría de los conjuntos de datos de presencia y solo se mitiga en los diseños de encuestas más estrictos y estructurados.
La simplificación espacial es una técnica para reducir el efecto del sesgo de muestreo en el modelo; elimina los puntos de presencia y de fondo de los datos de entrenamiento de forma que haya una distancia mínima especificada entre los puntos. Al reducir la cantidad de puntos que se encuentran a una distancia determinada entre sí, se reducen las áreas espacialmente sobremuestreadas en los datos de entrenamiento para el modelo.
Para utilizar la simplificación espacial, active el parámetro Aplicar simplificación espacial y proporcione valores para los dos parámetros siguientes:
- Distancia mínima al vecino más cercano: determina lo cerca que pueden estar dos puntos entre sí.
- Número de iteraciones para simplificación: especifica cuántas veces debe intentar eliminar puntos para encontrar una solución adecuada. Después de intentar este número de ejecuciones de simplificación espacial, la ejecución con más puntos se utiliza en el entrenamiento del modelo.
La simplificación espacial se produce tanto para los puntos de presencia como para los de fondo, incluso si los puntos de fondo son generados por la herramienta en el caso de utilizar datos de sólo presencia. La simplificación espacial aplicada a los puntos de fondo se produce independientemente de la simplificación espacial aplicada a los puntos de presencia, lo que puede dar lugar a que un punto de presencia esté más cerca de un punto de fondo que la distancia mínima de vecino más cercano.
Cuando la herramienta crea puntos de fondo mediante celdas ráster, la simplificación espacial se aplica mediante el remuestreo del ráster al valor del parámetro Distancia mínima de vecino más cercano y el uso de los centroides de celda ráster resultantes como puntos de fondo simplificados espacialmente.
La simplificación espacial puede ser una técnica útil para reducir problemas derivados de rásteres con recuentos de celdas grandes, ya que reduce la cantidad de puntos de fondo. dependientemente de la resolución del ráster, después de la reducción quedará aproximadamente el mismo número de puntos de fondo, de acuerdo con la distancia mínima entre vecinos más cercanos especificada.
La simplificación espacial no se aplica a los casos en los que el valor de Distancia mínima de vecino más cercano es menor que la distancia más cercana entre dos puntos (ya sea de entidades de puntos de entrada o derivados de centroides de celda ráster), ya que los datos cumplen los criterios de simplificación espacial.
Configurar el modelo
La herramienta contiene varios parámetros para configurar y ajustar el modelo. Aunque no es necesario utilizar todos los parámetros para ejecutar la herramienta, entender cómo funciona el modelo y cómo se utiliza cada parámetro puede tener un impacto significativo en la utilidad de la herramienta para sus flujos de trabajo de modelado de presencia.
Ajustar el peso informativo relativo de la presencia al fondo
La herramienta utiliza el parámetro Peso relativo de la presencia al fondo para designar cómo el modelo considera los puntos de fondo.
El valor predeterminado de 100 indica que los puntos de presencia en las entidades de los puntos de entrada son la fuente principal de información sobre la presencia; la ocurrencia en cada punto de fondo es desconocida y solo pueden utilizarse para representar las entidades del paisaje donde la presencia es posible, pero desconocida. Un valor de 1 indica que los puntos de fondo son igual de significativos que los puntos de presencia; como no son lugares de presencia pero son igual de significativos, representan lugares de ausencia conocidos. Los puntos de fondo, como localizaciones de ausencia, pueden utilizarse entonces por igual y junto con las localizaciones de presencia para crear un modelo de clasificación binario que estime tanto la presencia como la ausencia.
Este valor tiene un fuerte efecto en el funcionamiento del modelo y en las predicciones resultantes de la herramienta. Cuando el valor Peso relativo de la presencia al fondo se acerca a 100, el modelo aplica la forma tradicional del método MaxEnt. Cuando el valor es 1, el modelo trata cada presencia y punto de fondo por igual y es similar a la regresión logística.
Se recomienda basarse en la experiencia del dominio a la hora de decidir los valores apropiados entre 1 y 100 para el parámetro Peso relativo de la presencia al fondo, ya que estos pueden considerarse una representación de la prevalencia del evento en el área de estudio.
Usar funciones de vínculos y umbrales de probabilidad de presencia para interpretar los resultados
Un resultado intermedio del modelo (no devuelto por la herramienta) es una tasa de ocurrencia relativa (ROR) para cada ubicación. Este resultado intermedio no representa la probabilidad de ocurrencia, sino que corresponde a la adecuación relativa de cada ubicación para promover la presencia en el área de estudio. Para traducir estos valores sin procesar en valores que se puedan interpretar como probabilidades de presencia y predicciones de presencia, utilice el parámetro Transformación de probabilidad de presencia (Función de vínculo) para especificar una función de vínculo y el parámetro Valor límite de probabilidad de presencia para especificar un valor límite.
Hay dos funciones disponibles para el parámetro Transformación de probabilidad de presencia (función de vínculo):
- C-log-log: utiliza la fórmula 1-exp(-exp(entropy + raw output)) para calcular la probabilidad de presencia en cada ubicación. Esta es la opción predeterminada.
- Logística: utiliza la fórmula 1/(1+exp(-entropy- raw output)) para calcular la probabilidad de presencia en cada ubicación.
Las funciones de vínculo tienen una asociación con la ambigüedad que puede formar parte de los puntos de presencia registrados. Utilice la opción C-log-log cuando la ubicación y la ocurrencia de un fenómeno sean claras e inequívocas, por ejemplo, cuando los puntos de presencia representan ubicaciones de una especie de planta inmóvil. Utilice la opción Logística cuando la ubicación y la ocurrencia de un fenómeno sean ambiguas o difíciles de definir, por ejemplo, cuando los puntos de presencia representan ubicaciones de una especie animal migratoria.
Se proporcionan probabilidades de presencia de funciones de vínculo como valores entre 0 y 1. Puede usar el parámetro Valor límite de probabilidad de presencia para especificar un umbral de probabilidad que clasifique una ubicación como presencia. De forma predeterminada, se utiliza 0,5, y un valor mayor o igual que 0,5 se clasifica como presencia. Puede introducir un valor entre 0,01 y 0,99 para establecer un valor personalizado.
Los resultados de la clasificación utilizando el valor límite se comparan con los puntos de presencia conocidos en las entidades de los puntos de entrada y se proporcionan diagnósticos en los mensajes de geoprocesamiento y en las características entrenadas de salida.
Especificar las salidas de entrenamiento del modelo
La herramienta organiza las salidas en salidas de entrenamiento y predicción. La principal diferencia es que los resultados del entrenamiento corresponden a los datos que se utilizaron en el entrenamiento y la selección del modelo, y los resultados de la predicción corresponden a los datos a los que el modelo aún no ha sido expuesto.
Entidades de entrenamiento de salida
Utilice el parámetro Entidades de entrenamiento de salida para producir una clase de entidad que contenga los puntos utilizados en el entrenamiento del modelo. Esta salida simboliza cada punto entrenado mediante una comparación entre la clasificación del modelo y la clasificación observada.
Los puntos incluidos en las entidades entrenadas de salida no son necesariamente los mismos que los puntos de las entrenadas de puntos de entrada, ya que se generarán puntos de fondo cuando se utilicen datos de sólo presencia y porque la simplificación espacial puede reducir el número de puntos utilizados en el entrenamiento del modelo.
Se incluyen tres gráficos con las entidades entrenadas de salida:
- Porcentajes de resultado de clasificación: se utiliza para evaluar la parte de predicciones correctas con la clasificación observada en las entidades de entrenamiento.
- Recuento de precedencia y fondo por rangos de probabilidad: se utiliza para comparar la distribución de los valores de probabilidad de presencia del modelo y las clasificaciones de fondo observadas.
- Distribución de probabilidad de presencia por clasificaciones: se utiliza para ver la distribución de los rangos de probabilidad de presencia por designación de clasificación.
Ráster de entrenamiento de salida
Puede elegir utilizar Entidades de entrenamiento de salida para crear un ráster que clasifique la probabilidad de presencia en cada celda de la extensión de los datos de entrenamiento de entrada en cuatro categorías. Esto solo está disponible cuando se utilizan entidades de puntos de entrada que no incluyen puntos de fondo.
La extensión del ráster de entrenamiento de salida corresponde a la intersección de los rásteres de entrenamiento explicativos en el área de estudio. El tamaño de celda predeterminado es el tamaño de celda máximo de las entradas ráster, que se puede modificar con el entorno Tamaño de celda.
Tabla de curvas de respuesta y tabla de sensibilidad
Puede utilizar el parámetro Tabla de curvas de respuesta de salida para crear una tabla con un gráfico que visualice el efecto marginal de cada variable explicativa al predecir la presencia. También se conoce como dependencia parcial, o respuesta parcial, de la presencia del fenómeno a cada variable explicativa.
El gráfico Respuesta parcial de variables continuas se compone de varios gráficos; cada uno de ellos visualiza el efecto de cambiar los valores de cada variable explicativa en la probabilidad de presencia, manteniendo igual todos los demás factores.
El gráfico Respuesta parcial de variables de categorías es un solo gráfico de barras que muestra la respuesta marginal de presencia de cada categoría de variable explicativa.
El parámetro Tabla de sensibilidad de salida proporciona una tabla que incluye dos gráficos:
- Gráfico Tasas de omisión: se utiliza para evaluar la porción de puntos de presencia conocidos que fueron clasificados erróneamente como no presencia por el modelo, utilizando un rango de valores de corte de probabilidad de presencia entre cero y uno.
- Gráfico Plot ROC: se utiliza para comparar la porción de puntos de presencia conocida correctamente clasificados, lo que se conoce como la sensibilidad del modelo, y la porción de puntos de fondo que fueron clasificados como presencia. Al igual que gráfico Tasas de omisión, esta comparación se realiza en un rango de valores límite de probabilidad de presencia entre cero y uno.
Aplicar el modelo para predecir
Además de los modelos de entrenamiento, la herramienta Predicción solo de presencia se utiliza para aplicar modelos entrenados para estimar la presencia en nuevas ubicaciones usando los parámetros de la categoría de parámetros Opciones de predicción.
Configuración de la herramienta para predecir con nuevas entidades de predicción de entrada
El parámetro Entidades de predicción de entrada especifica las ubicaciones en las que la herramienta aplicará el modelo entrenado para estimar la presencia. El parámetro Entidades de predicción de salida indica una salida que contiene los resultados de la predicción aplicados al valor del parámetro Entidades de predicción de entrada.
Para cada variable explicativa utilizada en el entrenamiento del modelo, debe especificar una variable explicativa emparejada en forma de un campo, una entidad de distancia o un ráster, utilizando los parámetros Variables explicativas coincidentes, Entidades de distancia coincidentes y Rásteres explicativos coincidentes.
Los rangos de valores encontrados en los datos de predicción pueden diferir de los rangos de valores encontrados en los datos de entrenamiento. Por ejemplo, un ráster de elevación para entrenar el modelo puede incluir valores entre 400 y 1000 metros, pero el ráster de elevación correspondiente para las ubicaciones de predicción tiene áreas con elevaciones entre 200 y 1200 metros. Aunque se recomienda mantener rangos de variables explicativas en ubicaciones de predicción dentro de los rangos encontrados en los datos de entrenamiento, el parámetro Permitir predicciones fuera de los rangos de datos permite al modelo extrapolar y proporcionar estimaciones incluso para estas ubicaciones. Utilice los mensajes de geoprocesamiento de la herramienta para diagnosticar si algún rango de variables explicativas supera los rangos de datos de entrenamiento.
También puede utilizar el parámetro Ráster de predicción de salida para crear un ráster que contenga los resultados de las predicciones del modelo aplicadas a cada celda de la extensión de la intersección de los rásteres proporcionados en el parámetro Rásteres explicativos coincidentes. Con este parámetro se proporciona una superficie de predicción en la extensión de las condiciones medioambientales disponibles para las ubicaciones de predicción.
El ráster de predicción de salida difiere del ráster de entrenamiento de salida en que el ráster de entrenamiento se genera solo para la extensión de los datos de entrenamiento que se utilizaron en el modelo, y el ráster de predicción se genera para la extensión de las características de predicción de entrada y la intersección de sus rásteres explicativos emparejados.
Validar el modelo
La herramienta proporciona opciones para ayudar a validar y evaluar un modelo. Se recomienda utilizar estas opciones junto con los parámetros Tabla de curvas de respuesta de salida y Tabla de sensibilidad de salida para evaluar la calidad y utilidad de un modelo.
Usar el remuestreo y la validación cruzada
Los parámetros Esquema de remuestreo y Número de grupos de la categoría de parámetros Opciones de validación especifican si se aplicará la validación cruzada del modelo.
Si elige el esquema de remuestreo Aleatorio, la herramienta creará un subconjunto de los datos de entrenamiento en el número de grupos especificado.
A continuación, la herramienta inicia una iteración en cada grupo: seleccionando los datos del grupo actual para que se conviertan en el subconjunto de validación y seleccionando los datos colectivos de todos los grupos restantes para que se conviertan en el subconjunto de entrenamiento.
La herramienta crea un modelo con el subconjunto de entrenamiento para el grupo y predice la presencia de cada entidad de validación. A continuación, los resultados de la predicción se comparan con las designaciones conocidas de presencia y fondo del subconjunto de validación.
La herramienta continúa con este proceso iterando y permitiendo que cada grupo adopte el rol del subconjunto de validación. Este proceso se conoce normalmente como validación cruzada K iteraciones, donde K corresponde al número de grupos.
Para cada grupo, se registran el porcentaje de entidades de presencia clasificadas correctamente y el porcentaje de entidades de fondo clasificadas como presencia potencial. Los diagnósticos de cada grupo ayudan a indicar cómo se realizará el modelo al estimar la presencia en ubicaciones desconocidas. Estos diagnósticos se incluyen en los mensajes de geoprocesamiento de la herramienta.
La herramienta requiere al menos dos puntos de presencia y dos puntos de fondo en el subconjunto de entrenamiento para que cada grupo cree un modelo para la validación cruzada. Si los grupos seleccionados aleatoriamente de la herramienta no dan como resultado al menos dos puntos de presencia y dos puntos de fondo en los subconjuntos de entrenamiento de cada grupo, la herramienta intentará volver a crear los grupos hasta que se cumpla este requisito o hasta que se realicen 10 intentos. Si la herramienta todavía no puede cumplir este requisito para la validación cruzada después de 10 intentos con los datos proporcionados, la herramienta proporcionará una advertencia que indique que la validación cruzada no ha sido posible.
Mensajes de geoprocesamiento
Una salida importante de la herramienta es el informe incluido en los mensajes de geoprocesamiento. El informe incluye información importante sobre el modelo entrenado, incluyendo una tabla de parámetros del modelo, diagnósticos de comparación del modelo, coeficientes de regresión, un resumen categórico (si alguna de las variables explicativas es categórica), un resumen de validación cruzada (para el esquema de remuestreo aleatorio) y diagnósticos de rango de variables explicativas para los datos de entrenamiento y predicción (si se utilizaron entidades de predicción de entrada).
La tabla Coeficientes de regresión muestra las variables explicativas utilizadas en el entrenamiento del modelo después de la regularización. Cada entrada incluye el nombre de la variable explicativa, la expansión de base correspondiente y el coeficiente resultante. Los nombres de las variables explicativas indican la naturaleza de la expansión base; por ejemplo, una variable de producto compuesta por el producto de una variable Elevation y una variable ClimaticWaterDeficit se denomina product(ELEVATION, CLIMACTICWATERDEFICIT). Los coeficientes se redondean a cuatro posiciones decimales.
La tabla Resumen de validación cruzada incluye el Id. de cada grupo de validación cruzada, el recuento de observaciones en sus subconjuntos de validación de entrenamiento, el porcentaje de entidades de presencia observadas predichas como presencia y el porcentaje de entidades de fondo observadas.
La tabla Diagnóstico de rango de variables explicativas incluye cada variable explicativa proporcionada (ya sea en forma de campo, una entidad de distancia o un ráster), sus valores mínimo y máximo que se encuentran en los datos de entrenamiento y, si se utilizan entidades de predicción, los valores mínimo y máximo encontrados en los datos de predicción.
Prácticas recomendadas y consideraciones
Existen varias prácticas recomendadas y consideraciones que se deben tener en cuenta al utilizar la herramienta.
Multicolinealidad
Aunque la regularización de la herramienta mitiga los impactos de la multicolinealidad en las variables explicativas, se recomienda identificar y reducir la cantidad de variables explicativas correlacionadas. Entre las herramientas habituales para analizar la multicolinealidad se encuentran las matrices de gráficos de dispersión, la regresión exploratoria y la reducción de dimensiones.
Datos de categorías
La herramienta crea subconjuntos de los datos de entrenamiento de entrada en grupos para realizar una validación cruzada cuando se elige la opción Aleatorio para el parámetro Esquema de remuestreo. En este caso, cualquier categoría con menos de tres puntos de datos en los grupos resultantes impedirá la validación cruzada y se notificará una advertencia informando de que no se ha podido aplicar el método de remuestreo. Ejecutar la herramienta con un valor más bajo para el parámetro Número de grupos reduce las posibilidades de encontrar este problema al hacer que cada grupo sea más grande y permitir que haya más posibilidades de que las categorías formen parte de cada grupo.
Simplificación espacial
Utilice el parámetro Entidades de entrenamiento de salida para explorar los resultados de la simplificación espacial en el valor de Entidades de puntos de entrada.
Para construir un modelo utilizando la simplificación espacial y aplicar el modelo a todas las entidades de punto de entrada, proporcione las mismas características en los parámetros Entidades de puntos de entrada y Entidades de predicción de entrada.
Valor límite de probabilidad
Para decidir un valor adecuado para el parámetro Valor límite de probabilidad de presencia, utilice los gráficos Índices de omisión y Plot ROC
El gráfico Índices de omisión muestra cómo varios valores del parámetro Valor límite de probabilidad de presencia resultan en distintos índices de puntos de presencia clasificados incorrectamente, también llamado índice de omisión. Aunque se desea tener una tasa de omisión cercana a 0, también es importante no bajar el valor de corte simplemente para minimizar la tasa de omisión, ya que esto también minimizará la cantidad de puntos de fondo que se clasifican como presencia potencial (un resultado útil, en muchos escenarios).
Para evaluar el impacto de los diferentes valores límite en la tasa de puntos de fondo que se clasifican como presencia, utilice el gráfico Plot ROC. Incluye una comparación entre los puntos de presencia correctamente clasificados y el fondo clasificado como presencia potencial a través de diferentes valores de corte de probabilidad de presencia.
El objetivo de un gráfico Plot ROC difiere en función de la naturaleza de los puntos de fondo. Cuando los puntos de fondo representan la ausencia y el valor del parámetro Peso relativo de presencia al fondo es 1, el gráfico puede utilizarse como un gráfico ROC tradicional en el que se maximiza la sensibilidad (puntos de presencia correctamente clasificados) y se minimiza la 1-especificidad (fondo o ausencia clasificados como presencia). En este caso, los valores límite cercanos a la esquina superior izquierda del gráfico son más adecuados. Cuando los puntos de fondo representan una ocurrencia desconocida pero posible, el plot ROC demuestra el impacto de los diferentes índices de valor límite en el número de posibles ubicaciones de fondo que se han estimado en presencia.
Se recomienda utilizar ambos gráficos conjuntamente. A medida que evalúa el gráfico de índices de omisión para el valor límite predeterminado de 0,5, seleccione el punto de valor límite candidato en el gráfico Índices de omisión y compare esta entrada en el gráfico Plot ROC.
Gráficos de entidades entrenadas de salida para la validación
El gráfico Porcentajes de resultados de la clasificación muestra una comparación de las clasificaciones observadas y previstas. Puede utilizar el gráfico para evaluar la capacidad del modelo para predecir el rendimiento en puntos de presencia conocidos. Por ejemplo, puede evaluar el rendimiento del modelo en la predicción de presencia en puntos de presencia conocidos centrándose en la parte de puntos de presencia mal clasificados. En los casos de uso en los que la predicción de presencia en los puntos de fondo es importante, también puede utilizar el gráfico para ver y seleccionar los puntos de fondo que se predice que tienen presencia.
Criterios de selección del modelo general
El siguiente es un flujo de trabajo para la selección de modelos que podrían aplicarse a sus casos de uso:
Evalúe el valor límite de probabilidad de presencia predeterminado de 0,5 y su efecto en la capacidad del modelo para identificar ubicaciones de presencia conocidas como presencia (sensibilidad) mediante el eje y del gráfico ROC.
Abra los gráficos Índices de omisión y Plot ROC uno al lado del otro. Seleccione el valor límite de probabilidad de presencia predeterminado de 0,5 en el gráfico Tasas de omisión y observe la sensibilidad resultante en el eje y del gráfico ROC.
Evalúe el valor límite de probabilidad de presencia predeterminado de 0,5 y su efecto en la capacidad del modelo de identificar ubicaciones de fondo conocidas como fondo (1 especificidad) mediante el eje x del gráfico ROC.
Abra los gráficos Índices de omisión y Plot ROC uno al lado del otro. Seleccione el valor límite de probabilidad de presencia predeterminado de 0,5 en el gráfico Tasas de omisión y observe el valor resultante (1 especifidad) en el eje x del gráfico ROC.
Cuando los puntos de fondo reflejan ubicaciones con presencia desconocida (utilizando el valor predeterminado del parámetro Peso relativo de presencia a fondo de 100), refleja la parte de las ubicaciones de fondo de los datos de entrenamiento enviados que se estima que corresponden a una presencia potencial.
Cuando los puntos de fondo corresponden a la ausencia conocida (utilizando un valor de Peso relativo de presencia a fondo de 1), refleja la parte de falsos positivos (ubicaciones de ausencia conocidas que se etiquetan erróneamente como presencia).
Interprete el área bajo la curva (AUC) en el Diagrama ROC, que es un diagnóstico de evaluación de la capacidad del modelo para estimar las ubicaciones de presencia conocidas como ubicaciones de presencia y ubicaciones de fondo conocidas como fondo. Cuanto más alto sea el área bajo la curva, más adecuado será el modelo para la tarea de predicción de presencia.
Si bien el área situada bajo la curva es un diagnóstico de evaluación general útil, es importante decidir si el objetivo del modelo es reducir falsos positivos (es decir, asegurarse de que la presencia predicha es muy probable que, de hecho, sea presencia) o de reducir falsos negativos (es decir, asegurarse de que la ausencia predicha sea muy probable que sea, de hecho, una ausencia). Un equilibrio de los dos objetivos es el valor del diagrama ROC más cercano a la parte superior izquierda del gráfico.
Cuando varios modelos tienen diagnósticos de validación similares, seleccione el modelo más simple. El modelo con menos variables explicativas y más simples puede ser deseable por su interpretabilidad y facilitar la explicación. Siguiendo el principio de parsimonia, la explicación más sencilla de un fenómeno suele ser la mejor (Phillips et al., 2006).
Sobre todo lo demás, utilice los conocimientos expertos en dominios y conocimientos profundos del problema para guiar el diseño, la validación y el uso del modelo.
Recursos adicionales
Para obtener más información, consulte los recursos siguientes:
Aiello-Lammens, Matthew E., Robert A. Boria, Aleksandar Radosavljevic, Bruno Vilela, Robert P. Anderson. 2015. "spThin: an R package for spatial thinning of species occurrence records for use in ecological niche models." Ecography 38: 541-545.
- Du, Zhaohui , Zhiqiang Wang, Yunxia Liu, Hao Wang, Fuzhong Xue, Yanxun Liu. 2014. "Ecological niche modeling for predicting the potential risk areas of severe fever with thrombocytopenia syndrome." International Journal of Infectious Diseases, 26: 1-8. ISSN 1201-9712. https://doi.org/10.1016/j.ijid.2014.04.006
Elith, Jane, Steven J. Phillips, Trevor Hastie, Miroslav Dudík, Yung En Chee y Colin J. Yates. 2011. "A statistical explanation of MaxEnt for ecologists." Diversity and Distributions, 17: 43-57. PDF
Fithian, William, Jane Elith, Trevor Hastie, David A. Keith. 2014. "Bias Correction in Species Distribution Models: Pooling Survey and Collection Data for Multiple Species." arXiv:1403.7274v2 [stat.AP].
Fithian, William, Trevor Hastie. 2013. "Finite-sample equivalence in statistical models for presence-only data." The Annals of Applied Statistics, 7, no. 4 (December), 1917-1939.
Merow, Cory, Matthew J. Smith y John A. Silander, Jr. 2013. "A practical guide to MaxEnt for modeling species’ distributions: what it does, and why inputs and settings matter." Ecography, 36: 1058–1069. PDF
Mobley W, Sebastian A, Highfield W, Brody SD. 2019. "Estimating flood extent during Hurricane Harvey using maximum entropy to build a hazard distribution model." J Flood Risk Management. 2019;12 (Suppl. 1):e12549. https://doi.org/10.1111/jfr3.12549
Phillips, Steven J., Miroslav Dudik. 2008. "Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation." Ecography 31: 161-175.
Phillips, Steven J., Robert P. Anderson, Robert E. Schapire. 2006. "Maximum entropy modeling of species geographic distributions." Ecological Modelling, 190: 231-259. PDF
Radosavljevic, Aleksandar, Robert P. Anderson. 2014. "Making better Maxent models of species distributions: complexity, overfitting and evaluation." Journal of Biogeography 41, 629-643.