Cómo funciona el análisis de valores atípicos optimizado

El Análisis de valores atípicos optimizado ejecuta la herramienta Análisis de cluster y de valor atípico (I Anselin local de Moran) utilizando parámetros derivados de características de los datos de entrada. Al igual que la configuración automática de una cámara digital utiliza la iluminación y el sujeto frente a las lecturas del terreno para determinar una apertura, velocidad de obturador y enfoque apropiados, la herramienta Análisis de valores atípicos optimizado interroga los datos para obtener la configuración que proporcionará unos resultados óptimos del análisis. Si, por ejemplo, el dataset de Entidades de entrada contiene datos de puntos de incidentes, la herramienta agregará los incidentes a las entidades ponderadas. Mediante el uso de la distribución de las entidades ponderadas, la herramienta identificará una escala apropiada de análisis. El tipo de clasificación notificado en las Entidades de salida se ajustará automáticamente para la realización de varias pruebas y para la dependencia espacial utilizando el método de corrección Índice de descubrimientos falsos (FDR).

Cada una de las decisiones que toma la herramienta para proporcionar los mejores resultados posibles se muestran en forma de mensajes durante la ejecución de la herramienta; a continuación se documenta la explicación de estas decisiones.

Al igual que una cámara tiene un modo manual que permite invalidar la configuración automática, la herramienta Análisis de cluster y de valor atípico (I Anselin local de Moran) proporciona el control total sobre todas las opciones de parámetros. La ejecución de la herramienta Análisis de valores atípicos optimizado y la anotación de la configuración de parámetros que utiliza puede ayudar a refinar los parámetros que proporciona a la herramienta Análisis de cluster y de valor atípico (I Anselin local de Moran) para el control total.

El flujo de trabajo para la herramienta Análisis de valores atípicos optimizado incluye los componentes siguientes. Los cálculos y algoritmos usados dentro de cada uno de estos componentes se describen a continuación.

Evaluación inicial de datos

En este componente, las Entidades de entrada y el Campo de análisis opcional, Polígonos de delimitación que definen dónde es posible que se produzcan incidentes y Método de agregación de datos de incidentes se examinan para asegurarse de que haya entidades suficientes y una variación adecuada en los valores que se van a analizar. Si la herramienta encuentra registros con ausencia de geometría o geometría corrupta, o si se especifica un Campo de análisis y hay valores nulos presentes, los registros asociados se enumerarán como registros incorrectos y se excluirán del análisis.

La herramienta Análisis de valores atípicos optimizado usa la estadística I Anselin local de Moran y, al igual que sucede en muchos métodos estadísticos, los resultados no son fiables cuando hay menos de 30 entidades. Si proporciona Entidades de entrada de polígono o Entidades de entrada de punto y un Campo de análisis, necesitará un mínimo de 30 entidades para usar esta herramienta. La cantidad mínima de Polígonos para agregar incidentes a puntos también es 30. La capa de entidades que representa los Polígonos de delimitación que definen dónde es posible que se produzcan incidentes puede incluir uno o varios polígonos.

La estadística I Anselin local de Moran también requiere asociar los valores a cada entidad que analiza. Cuando las Entidades de entrada que se proporcionan representan datos de incidentes (cuando no se proporciona un Campo de análisis), la herramienta agregará los incidentes y los recuentos de incidentes se emplearán como los valores que se van a analizar. Después de completarse el proceso de agregación, seguirá habiendo un mínimo de 30 entidades, de modo que con los datos de incidentes, comenzará con más de 30 entidades. En la tabla siguiente se documenta el número mínimo de entidades para cada Método de agregación de datos de incidentes:

Número mínimo de incidentes:Método de agregaciónNúmero mínimo de entidades después de la agregación

60

30

30

30

30

30

60

30

La estadística I Anselin local de Moran también se ha diseñado para un Campo de análisis con una variedad de valores diferentes. Por ejemplo, la estadística no es adecuada para los datos binarios. La herramienta Análisis de valores atípicos optimizado comprobará el Campo de análisis para asegurarse de que los valores tienen al menos alguna variación.

Los valores atípicos de ubicación son entidades que están mucho más lejos de las entidades vecinas que la mayoría de entidades del dataset. Piense en un entorno urbano con grandes ciudades de alta densidad de población en el centro y ciudades más pequeñas y con menos densidad de población en la periferia. Si calcula la distancia promedio del vecino más cercano para estas ciudades, encontraría que el resultado sería menor si excluyese los valores atípicos de ubicación periférica y se centrase solo en las ciudades próximas al centro urbano. Este es un ejemplo de cómo los valores atípicos de ubicación pueden tener un gran impacto en estadísticas espaciales tales como Promedio de vecinos más cercanos. Como la herramienta Análisis de valores atípicos optimizado utiliza los cálculos de distancias promedio y mediana de vecinos más cercanos para la agregación y también para identificar una escala apropiada de análisis, el componente Evaluación inicial de datos de la herramienta también identificará los valores atípicos de ubicación en las Entidades de entrada o los Polígonos para agregar incidentes a puntos y notificará el número que resulte. Para ello, la herramientas calcula la distancia promedio del vecino más cercano de cada entidad y evalúa la distribución de todas estas distancias. Las entidades que están a una distancia mayor que tres veces la desviación estándar del vecino más cercano no coincidente se consideran valores atípicos de ubicación.

Agregación de incidentes

Para los datos de incidentes, el componente siguiente en el flujo de trabajo agrega los datos. Hay tres enfoques posibles basados en el Método de agregación de datos de incidentes que seleccione. Los algoritmos para cada uno de estos enfoques se describen a continuación.

  • :
    1. Contraiga los puntos coincidentes produciendo un solo punto en cada ubicación única del dataset, utilizando el mismo método empleado por la herramienta Recopilar eventos.
    2. Compare la densidad de las N Entidades de entrada con la densidad de N entidades aleatorias basándose en el polígono de delimitación mínimo de las Entidades de entrada (en metros geodésicos). Se calcula la distancia promedio del vecino más cercano para un conjunto aleatorio de N puntos en el polígono de delimitación mínimo. Si el doble de esta distancia promedio del vecino más cercano para la distribución de las entidades aleatorias es inferior a la extensión máxima del área de estudio, dividida entre 100, se considera que el dataset es denso y el Tamaño de celda de la cuadrícula utilizado es la extensión máxima dividida entre 100.
    3. Si el dataset no se considera denso utilizando el método anterior, la distancia del Tamaño de celda utilizada es 2 veces la distancia promedio o mediana del vecino más cercano, el valor que sea más alto de los dos. La distancia promedio del vecino más cercano (ANN) para todos los puntos de ubicación únicos, excluidos los valores atípicos de ubicación, se calcula sumando la distancia al vecino más cercano de cada entidad y dividiendo el resultado entre el número de entidades (N). La distancia mediana del vecino más cercano (MNN) se calcula ordenando de menor a mayor las distancias de vecinos más cercanos y seleccionando la distancia que cae en la mitad de la lista ordenada (excluyendo también los valores atípicos de ubicación). La distancia que sea más grande de las dos (ANN o MNN) se multiplica por 2 y se utiliza como Tamaño de celda de la cuadrícula.
    4. Cree una cuadrícula de polígonos de red o hexagonales utilizando el Tamaño de celda optimizado y superponga la cuadrícula con los puntos de incidentes.
    5. Realice el recuento de los incidentes en cada celda de polígono.
    6. Cuando se proporciona el parámetro Polígonos de delimitación que definen dónde es posible que se produzcan incidentes, todas las celdas de polígono que caen dentro de los polígonos de delimitación se conservan. Cuando no se proporciona el parámetro Polígonos de delimitación que definen dónde es posible que se produzcan incidentes, las celdas de polígono con cero incidentes se eliminan.
    7. Si el resultado del proceso de agregación es menor que 30 celdas de polígono o si los recuentos en todas las celdas de polígono son idénticos, recibirá un mensaje indicando que las Entidades de entrada proporcionadas no son adecuadas para el Método de agregación de datos de incidentes seleccionado; de lo contrario, el componente de agregación para este método se completará correctamente.
  • :
    1. Para este Método de agregación de datos de incidentes se requiere una capa de entidades Polígonos para agregar incidentes a puntos. Estos polígonos de agregación se superponen a los puntos de incidentes.
    2. Realice el recuento de los incidentes dentro de cada polígono.
    3. Asegúrese de que exista una variación suficiente en los recuentos de incidentes para el análisis. Si el resultado del proceso de agregación es que todos los polígonos tienen el mismo número de incidentes, recibirá un mensaje indicando que los datos no son apropiados para el Método de agregación de datos de incidentes seleccionado.
  • :
    1. Contraiga los puntos coincidentes produciendo un solo punto en cada ubicación única del dataset, utilizando el mismo método empleado por la herramienta Recopilar eventos. Realice el recuento del número de entidades de ubicación única (UL).
    2. Calcule las distancias promedio y mediana de vecinos más cercanos en todos los puntos de ubicación única, excluyendo los valores atípicos de ubicación. La distancia promedio de vecinos más cercanos (ANN) se calcula sumando la distancia al vecino más cercano de cada entidad y dividiendo el resultado por el número de entidades (N). La distancia mediana de vecinos más cercanos (MNN) se calcula ordenando de menor a mayor las distancias de vecinos más cercanos y seleccionando la distancia que cae en la mitad de la lista ordenada.
    3. Establezca la distancia de alineación (SD) inicial en el valor de ANN o MNN más pequeño.
    4. Ajuste la distancia de alineación para considerar los puntos coincidentes. Escalar = (UL/N), donde N es el número de entidades de la capa Entidades de entrada. La distancia de alineación ajustada es igual a SD * Escalar.
    5. Integre los puntos de incidentes en tres iteraciones usando primero la distancia de alineación ajustada multiplicada por 0,10, usando a continuación la distancia de alineación ajustada multiplicada por 0,25 e integrando finalmente con una distancia de alineación igual a la distancia de alineación totalmente ajustada. La realización del paso de integración en tres fases minimiza la distorsión de las ubicaciones de puntos originales.
    6. Contraiga los puntos alineados produciendo un solo punto en cada ubicación con un peso para indicar el número de incidentes que se alinearon juntos. Esta parte del proceso de agregación utiliza el método Recopilar eventos.
    7. Si el resultado del proceso de agregación es menor que 30 puntos ponderados o si los recuentos en todos los puntos son idénticos, recibirá un mensaje indicando que las Entidades de entrada proporcionadas no son adecuadas para el Método de agregación de datos de incidentes seleccionado; de lo contrario, el componente de agregación para este método se completará correctamente.

Escala de análisis

Este siguiente componente del flujo de trabajo de Análisis de valores atípicos optimizado se aplica a las entidades ponderadas, ya sea porque ha proporcionado Entidades de entrada con un Campo de análisis o porque el Método de agregación de datos de incidentes ha creado pesos a partir de recuentos de incidentes. El paso siguiente es identificar una escala apropiada de análisis. La escala de análisis ideal es una distancia que coincida con la escala de la pregunta que se está planteando (si está buscando clusters y áreas de valores atípicos del brote de una enfermedad y sabe que, por ejemplo, el vector del mosquito tiene un rango de 10 millas, lo más apropiado sería el uso de una distancia de 10 millas). Cuando no se puede justificar el uso de una distancia específica para la escala de análisis, hay algunas estrategias que sirven de ayuda. La herramienta Análisis de valores atípicos optimizado emplea estas estrategias.

La primera estrategia intentada es la Autocorrelación espacial incremental. Siempre que vea clustering espacial en el apaisado, ve evidencia de procesos espaciales subyacentes en el trabajo. La herramienta Autocorrelación espacial incremental realiza la Estadística Yo de Global Moran) para una serie de distancias en aumento, midiendo la intensidad del clustering espacial para cada distancia. Los valores atípicos de ubicación se excluyen de los cálculos de las distancias iniciales e incrementales en la Autocorrelación espacial incremental. La intensidad del clustering está determinado por la puntuación z que se devuelve. Generalmente, a medida que aumenta la distancia, también aumenta la puntuación z, que indica la intensificación del clustering. Sin embargo, en una distancia específica, la puntuación z por lo general aumenta. Los picos reflejan las distancias donde los procesos espaciales que promueven el clustering son más pronunciados. La herramienta Análisis de valores atípicos optimizado busca las distancias pico utilizando la Autocorrelación espacial incremental. Si se encuentra una distancia pico, esta distancia pasa a ser la escala del análisis. Si se encuentran varias distancias pico, se selecciona la primera distancia pico.

Si no se encuentra ninguna distancia pico, el Análisis de valores atípicos optimizado examina la distribución espacial de las entidades y calcula la distancia promedio que produciría K vecinos para cada entidad. K se calcula como 0,05 * N, donde N es el número de entidades de la capa Entidades de entrada. K se ajustará de manera que nunca sea menor que 3 o mayor que 30. Si la distancia promedio que produciría K vecinos supera una distancia estándar, la escala de análisis se establecerá en una distancia estándar; de lo contrario, reflejaría la distancia promedio de K vecinos.

La finalización del paso Autocorrelación espacial incremental puede llevar mucho tiempo en datasets grandes y densos. Por consiguiente, cuando se encuentra una entidad con 500 o más vecinos, se omite el análisis incremental, y la distancia promedio que produciría 30 vecinos se calcula y utiliza para la escala del análisis.

Para entidades que no tienen vecinos a esta distancia, la Banda de distancia se extiende para incluir el vecino más cercano.

Análisis de cluster y de valores atípicos

En este punto del flujo de trabajo de Análisis de valores atípicos optimizado se han realizado todas las verificaciones y ajustes de parámetros. El siguiente paso consiste en ejecutar la estadística I Anselin local de Moran. Los detalles de los cálculos matemáticos para esta estadística se describen en Cómo funciona el Análisis de cluster y de valor atípico (I Anselin local de Moran). Los resultados de la estadística I Anselin local de Moran se corregirán automáticamente para la realización de varias pruebas y para dependencia espacial utilizando el método de corrección Índice de descubrimientos falsos (FDR).

Salida

El último componente de la herramienta Análisis de valores atípicos optimizado consiste en crear las Entidades de salida. Si las Entidades de entrada representan datos de incidentes que requieren agregación, las Entidades de salida reflejarán las entidades ponderadas agregadas (celdas de polígono de red o hexagonal o los polígonos de agregación que haya proporcionado para el parámetro Polígonos para agregar incidentes a puntos o puntos ponderados). Cada entidad tendrá un valor de índice I de Moran local (LMiIndex), una puntuación z, un valor P, un tipo de clúster/valor atípico (COType) resultante y la cantidad de vecinos que cada entidad incluyó en sus cálculos.

Recursos adicionales

Anselin, Luc. "Local Indicators of Spatial Association-LISA," Geographical Analysis 27(2): 93-115, 1995.

La página de recursos de estadística espacial contiene vídeos cortos, tutoriales, seminarios web, artículos y muchos materiales más para ayudarle a empezar a trabajar con las estadísticas espaciales.