Buscar valores atípicos

Nota:

Actualmente, esta funcionalidad solo se admite en Map Viewer Classic. Estará disponible en una versión futura de Visor de mapas.

Buscar valores atípicos La herramienta Buscar valores atípicos determinará si hay algunos valores atípicos estadísticamente significativos en el patrón espacial de los datos.

Diagrama de flujo de trabajo

Diagrama de flujo de trabajo de Buscar valores atípicos

Ejemplos

  • ¿Existen patrones de gastos anómalos en Los Ángeles?
  • ¿Dónde están los límites más nítidos entre prosperidad y pobreza en un área de estudio?
  • En su área ¿hay tiendas que se enfrentan a bajas ventas a pesar de estar rodeados de tiendas con gran rendimiento?
  • ¿Dónde hay tasas inesperadamente altas de diabetes en el área de estudio?
  • ¿Hay condados en Estados Unidos con una esperanza de vida inusualmente baja en comparación con sus condados vecinos?

Notas de uso

Las entidades de entrada pueden ser puntos o áreas.

El parámetro Buscar valores atípicos de se usa para evaluar la organización espacial de las entidades. Si las entidades son áreas, debe elegirse un campo. Los valores atípicos se determinarán usando los números del campo elegido. Las entidades de puntos se pueden analizar usando un campo o la opción Recuentos de puntos. Si se usa Recuentos de puntos, la herramienta determinará si los propios puntos están anormalmente dispersos o agrupados, más que los valores de campo altos y bajos.

Si los puntos se están analizando con Recuentos de puntos, estarán disponibles dos opciones adicionales. El parámetro Recuentos de puntos permite que los puntos se agreguen dentro de una Cuadrícula de malla, una Cuadrícula de hexágono o una capa de área del panel Contenido, como condados o códigos postales. El parámetro Definir ubicación posible de puntos se usa para crear un área o varias áreas de interés. Las tres opciones para este parámetro son Ninguna, que significa que se usan todos los puntos, un área definida por una capa de área del panel Contenido y áreas creadas usando la herramienta Dibujar.

Sus datos se pueden normalizar usando el parámetro Dividir por. Los datos de Población de Esri usan GeoEnrichment y requieren el uso de créditos. Otra opción es normalizar usando un campo de la capa de entrada (disponible cuando el parámetro Buscar valores atípicos de se define en un campo, en lugar de Recuentos de puntos). Los valores que se pueden usar para la normalización incluyen el número de viviendas o el área.

Nota:

Los datos de Población de Esri no están disponibles para el parámetro Dividir por cuando la organización tiene un servicio personalizado de GeoEnrichment servicio personalizado configurado.

La estadística utilizada por esta herramienta usa permutaciones para determinar qué probabilidades habría de encontrar la distribución espacial real de los valores que está analizando mediante la comparación de los valores con un conjunto de valores generados de forma aleatoria. La elección del número de permutaciones en el parámetro Optimizar para es un equilibrio entre la opción Precisión y el tiempo de procesamiento aumentado (opción Velocidad). Se puede usar un número más bajo de permutaciones cuando se explora un problema por primera vez, pero la práctica recomendada es aumentar las permutaciones con arreglo a la opción Precisión en los resultados finales.

El menú desplegable Opciones puede utilizarse para definir un valor de Tamaño de celda o un valor de Banda de distancia específicos para el análisis.

La capa de salida incluye campos adicionales que contienen información como Cluster/Outlier Type, el número de vecinos de cada entidad incluido en su análisis, Local Moran's I Index y ,Value y Scorepara cada entidad. La capa de salida también contiene información sobre el análisis estadístico en la sección Descripción de sus Detalles del elemento.

Sugerencia:

Haga clic en Mostrar créditos antes de ejecutar el análisis para comprobar cuántos créditos se consumirán.

Cómo funciona Buscar valores atípicos

Debido a que nuestros ojos y cerebros tratan de forma natural de encontrar patrones incluso cuando no existen, puede ser difícil saber si los patrones de los datos son el resultado de procesos espaciales o simplemente el resultado de una probabilidad aleatoria. Esta es la razón por la que los investigadores y analistas usan métodos estadísticos como Buscar valores atípicos (I Anselin local de Moran) para cuantificar patrones espaciales.

Cuando encuentra valores atípicos estadísticamente significativos o clustering en los datos, dispone de una información valiosa. Saber dónde y cuándo los valores atípicos y las agrupaciones pueden proporcionar pistas importantes sobre los procesos que producen los patrones que se están viendo. Saber que los robos residenciales, por ejemplo, son por sistema más frecuentes en ciertas vecindades es una información vital si se tienen que diseñar estrategias de prevención eficaces, asignar recursos policiales escasos, iniciar programas de vigilancia vecinal, autorizar investigaciones criminales en profundidad o identificar sospechosos potenciales.

La herramienta Buscar valores atípicos calcula un índice de Moran local (LMiIndex) para cada entidad del dataset. Un valor positivo indica que una entidad tiene entidades vecinas con valores de atributos igualmente altos o bajos; esta entidad es parte de un clúster. Un valor negativo indica que una entidad tiene entidades vecinas con valores diferentes; esta entidad es un valor atípico. En ambas instancias, el valor P para la entidad debe ser lo suficientemente pequeño para que el clúster o el valor atípico se consideren estadísticamente significativos. Para obtener más información sobre cómo determinar la importancia estadística, consulte ¿Qué es una puntuación z? ¿Qué es un valor P?. El índice I de Moran local (I) es una medida relativa y solo se puede interpretar en el contexto de su puntuación z o valor P calculado. El campo Cluster/Outlier Type (COType) distingue entre un clúster estadísticamente significativo de valores altos (HH) o un clúster de valores bajos (LL), un valor atípico en que un valor alto está rodeado principalmente de valores bajos (HL) y un valor atípico en que un valor bajo está rodeado principalmente de valores altos (LH).

Analizar entidades de área

Los datos están disponibles para entidades de área como distritos censales, condados, distritos de voto, regiones hospitalarias, parcelas, límites de parques y zonas de recreo, cuencas hidrográficas, clasificaciones de cobertura de suelo y áreas climáticas. Cuando la capa de análisis contiene entidades de área, debe especificar un campo numérico que se usará para encontrar valores altos y bajos atípicos. Este campo puede representar lo siguiente:

  • Recuentos (como el número de hogares)
  • Tasas (como la proporción de población que tiene un título universitario)
  • Medias (como la media o la mediana de ingresos por hogar)
  • Índices (como el valor que indica si el gasto por hogar en artículos deportivos es superior o inferior a la media nacional)

Con el campo que ha proporcionado, la herramienta Buscar valores atípicos creará un mapa (la capa de resultados) que muestra áreas con valores atípicos estadísticamente significativos de valores altos (en rojo) y valores bajos (en azul) así como agrupaciones de valores altos (en rosa) y valores bajos (en azul claro).

Analizar entidades de punto

Hay disponibles diversos datos como entidades de punto. Ejemplos de entidades más representadas habitualmente como puntos incluyen incidentes, colegios, hospitales, eventos de llamada de emergencia, accidentes de tráfico, pozos de agua, árboles y botes En ocasiones le puede interesar analizar valores de datos (un campo) asociados con cada entidad de puntos. En otros casos, solo le interesará evaluar la formación de agrupaciones o la dispersión de los puntos. La decisión de proporcionar un campo dependerá de la pregunta que se esté formulando.

Buscar valores atípicos de valores altos y bajos asociados con entidades de puntos

Analizar puntos con un campo de análisis Proporcione un campo de análisis para responder a preguntas como: ¿Dónde se encuentran los valores anormalmente altos y bajos? El campo seleccionado puede representar lo siguiente:

  • Recuentos (como el número de accidentes de tráfico en las intersecciones de calles)
  • Tasas (como desempleo urbano, en la que cada ciudad se representa como una entidad de punto)
  • Medias (como la nota media en los exámenes de matemáticas entre escuelas)
  • Índices (como el índice de satisfacción del consumidor para concesionarios de coches en el país)

Buscar valores atípicos de recuentos de puntos altos y bajos

Analizar puntos sin campo de análisis Para algunos datos de puntos, normalmente cuando cada punto representa un evento, incidente o indicación de presencia o ausencia, no habrá ningún campo de análisis obvio que se pueda usar. En estos casos, puede encontrar dónde se da una creación de clústeres inusualmente intensa o escasa (estadísticamente significativa). Para este análisis, las entidades de área (una cuadrícula de malla o una cuadrícula de hexágono que la herramienta crea o una capa de área que el usuario proporciona) se sitúan sobre los puntos y se hace un recuento del número de puntos incluido dentro de cada área. La herramienta encuentra los valores atípicos de recuentos de puntos altos y bajos asociados con cada entidad de área.

Definir ubicación posible de puntos

Puntos, sin campo de análisis, área de estudio de límite Especifique una capa de área o dibuje áreas que definan un área de estudio si desea que el análisis se realice en todas las ubicaciones en las que podrían producirse entidades de puntos del incidente. Para esta opción, la herramienta Buscar valores atípicos superpondrá el área de estudio definida con una cuadrícula de malla (predeterminada) o de hexágono y el recuento de puntos que se encuentran dentro de cada celda de cuadrícula. Si no indica dónde son posibles los puntos de incidentes utilizando esta opción, la herramienta Encontrar valores atípicos solo analizará las celdas de cuadrícula que contengan al menos un punto. Sin embargo, cuando haga uso de esta opción para definir dónde son posibles los puntos, se hará el análisis de todas las celdas de cuadrícula que se encuentren en las áreas de límite que defina.

Contar puntos dentro de las áreas de agregación

Puntos, sin campo de análisis, áreas de agregación En algunos casos, las entidades de área, como los distritos censales, las zonas de patrullaje o las parcelas, tendrán más sentido para el análisis que la cuadrícula hexagonal o de red predeterminada.

Elegir dividir por

Normalizar su dataset Hay dos enfoques habituales para identificar valores atípicos:

  • Por recuento: cuando analiza un dataset concreto, normalmente lo que quiere es encontrar los valores atípicos del número de entidades de cada área de agregación del área de estudio. Por ejemplo, puede encontrar valores atípicos donde los números más altos de delitos se han cometido en áreas que por lo general tienen pocos delitos o donde los números más bajos de delitos se han cometido en áreas que por lo general tienen muchos delitos para potenciar al máximo el efecto de los recursos asignados.
  • Por intensidad: analizar y comprender patrones que tienen en cuenta las distribuciones subyacentes que influyen en un fenómeno concreto también puede resultar interesante. Este concepto se denomina en muchos casos normalización o el proceso de dividir un valor de atributo numérico por otro para reducir las diferencias en los valores según el tamaño de las áreas o el número de entidades de cada área. Por ejemplo, si volvemos al ejemplo de los delitos, puede que quiera saber dónde están los valores atípicos del número de delitos mayor y menor que tienen en cuenta la población subyacente. En este caso, puede hacer un recuento del número de delitos de cada área (si esa área es una cuadrícula o un dataset de un área diferente) y dividir ese número total de delitos por la población total del área. Esto le proporciona un índice de criminalidad o el número de delitos per cápita. Encontrar las áreas de valores atípicos de los delitos per cápita responde a una pregunta diferente que también puede ayudar en la toma de decisiones.

Las dos formas de analizar los datos del área de estudio son válidas; la elección solo depende de la pregunta que se esté formulando.

La elección del atributo adecuado que se va a utilizar para dividir es importante. Debe confirmar que el parámetro Dividir por es un parámetro que influye, de hecho, en la distribución del fenómeno que se está analizando.

Cuando elige el parámetro Dividir por para Esri Population, se usan los datos de población de Demographics Global Coverage de Esri. Confirme que la resolución de datos disponible para el área que le interesa es compatible con el tamaño de las áreas que se están enriqueciendo (ya sean áreas de agregación que usted proporcione o cuadrados de la malla que se están creando). Visite Esri Demographics Global Coverage para obtener información detallada sobre los niveles geográficos disponibles para cada país y época de datos de población que se están usando en el análisis.

Interpretar los resultados

El resultado de la herramienta Buscar valores atípicos es un mapa. En los puntos o las áreas de este mapa de capa de resultados, los que están en rojo oscuro y azul oscuro indican valores atípicos estadísticamente significativos en su área de estudio. Los que están en azul claro y rosa indican agrupaciones estadísticamente significativas. Los puntos o áreas que aparecen en color beis, por otro lado, no son valores atípicos ni forman parte de ningún clúster estadísticamente significativo; el patrón espacial asociado con estas entidades podría ser resultado del azar. Algunas veces, los resultados del análisis indicarán que no hay valores atípicos ni agrupaciones estadísticamente significativos. Esta es información importante. Cuando un patrón espacial es aleatorio, no tendrá pista alguna sobre las causas subyacentes. En estos casos, todas las entidades de la capa de resultados aparecerán en beis. Sin embargo, cuando encuentra valores atípicos o clustering estadísticamente significativos, esas ubicaciones son pistas importantes sobre los motivos que podrían haber generado el fenómeno. Por ejemplo, encontrar valores atípicos espaciales estadísticamente significativos de tasas de cáncer elevadas asociadas con determinadas toxinas medioambientales, puede promover políticas y medidas destinadas a proteger a la población. De un modo similar, encontrar valores atípicos bajos de obesidad infantil asociada con escuelas que fomentan programas de deporte extraescolar puede proporcionar una sólida justificación para promocionar este tipo de programas a escala más amplia.

Solución de problemas

El método estadístico utilizado por la herramienta Buscar valores atípicos se basa en la teoría de la probabilidad y, por consiguiente, es necesario un número mínimo de entidades para funcionar eficazmente. Este método estadístico también requiere varios recuentos o valores de campo de análisis. Si, por ejemplo, está analizando delitos por distrito censal y obtiene exactamente el mismo número de delitos en cada distrito, la herramienta no puede solucionar el problema. La tabla siguiente ofrece una explicación de los mensajes que se puede encontrar cuando usa la herramienta Buscar valores atípicos:

MensajeProblemaSolución

Las opciones de análisis que has seleccionado necesitan un mínimo de 60 puntos para poder calcular los puntos calientes y fríos.

No hay suficientes entidades de punto en su capa de análisis de puntos para obtener unos resultados fiables.

Agregue más puntos a la capa de análisis.

Como alternativa, puede definir áreas de análisis de límite, para agregar información sobre dónde habrían podido mostrarse los puntos. Con este método, necesita como mínimo 30 puntos.

También puede proporcionar áreas de agregación que superpongan sus puntos. Para este análisis, necesita como mínimo 30 áreas poligonales y 30 puntos dentro de las áreas.

Si cuenta con 30 puntos como mínimo, puede especificar un campo de análisis. Esto obliga a reformular la pregunta de ¿dónde se encuentran muchos o pocos puntos? a la pregunta ¿dónde se agrupan espacialmente los valores altos y bajos?

Las opciones de análisis que has seleccionado necesitan un mínimo de 30 puntos con datos válidos en el campo de análisis para poder calcular los puntos calientes y fríos.

En su capa de análisis no hay suficientes puntos o suficientes puntos asociados con valores de campo de análisis no nulos para obtener unos resultados fiables.

Si tiene menos de 30 puntos, este método de análisis no es adecuado para sus datos. Si tienes más de 30 puntos y se muestra este mensaje, puede que el campo de análisis que ha especificado contenga valores nulos. Los puntos con valores de campo de análisis nulos se omiten. Otra posibilidad es que tenga activo un filtro que reduzca el número de puntos disponible para el análisis.

Las opciones de análisis que ha seleccionado necesitan un mínimo de 30 polígonos con datos válidos en el campo de análisis para poder calcular los puntos calientes y fríos..

En su capa de análisis no hay suficientes áreas poligonales o suficientes entidades de área asociadas con valores de campo de análisis no nulos para obtener unos resultados fiables.

Si tiene menos de 30 áreas poligonales, este método de análisis no es adecuado para sus datos. Si tiene más de 30 áreas y se muestra este mensaje, puede que el campo de análisis que ha especificado contenga valores nulos. Las áreas poligonales con valores de campo de análisis nulos se omiten. Otra posibilidad es que tenga activo un filtro que reduzca el número de áreas de polígono disponibles para el análisis.

La opción de análisis que ha seleccionado necesita un mínimo de 30 puntos para situarse en el interior de las áreas poligonales de límite.

Solo se analizan los puntos situados dentro de las áreas de análisis de límite que dibuje o proporcione. Para obtener unos resultados fiables, como mínimo 30 puntos deben estar situados dentro de las áreas poligonales de límite.

Si no tiene como mínimo 30 puntos, este método no es adecuado para sus datos. Con un mínimo de 30 entidades, esta solución suele consistir en proporcionar áreas de análisis de límite diferentes y quizá mayores.

Otra opción es proporcionar una capa de área con un mínimo de 30 polígonos de agregación que superpongan al menos 30 de sus puntos. Cuando proporcionas áreas de agregación, el análisis se realiza en los recuentos de punto dentro de cada área.

La opción de análisis que has seleccionado necesita un mínimo de 30 puntos para situarse en el interior de los polígonos de agregación.

Solo los puntos situados en el interior de los polígonos de agregación se incluyen en el análisis. Para obtener unos resultados fiables, como mínimo 30 puntos deben estar situados dentro de las áreas poligonales que ha proporcionado.

Si no tiene como mínimo 30 puntos, este método de análisis no es el adecuado para sus datos. De lo contrario, debería trazar o proporcionar áreas de análisis de límite que superpongan al menos 30 de sus puntos. Las áreas de límite deberían reflejar todas las ubicaciones donde puedan situarse los puntos.

La opción de análisis que has seleccionado necesita un mínimo de 30 áreas de agregación.

La opción que ha seleccionado se superpone a las áreas de agregación por encima de los puntos y después cuenta el número de puntos situados dentro de cada área. Se necesitan como mínimo 30 recuentos (30 áreas) para proporcionar unos resultados fiables.

Solo se pueden obtener unos resultados fiables si proporcionas como mínimo 30 puntos situados como mínimo dentro de 30 áreas de agregación. Si no tiene 30 áreas de agregación, puede trazar o proporcionar áreas de análisis de límite que superpongan al menos 30 de sus puntos. Estas áreas de límite deberían reflejar todas las ubicaciones donde puedan situarse los puntos.

Los puntos calientes y fríos no se pueden calcular si el número de puntos de cada área poligonal es idéntico. Inténtelo con áreas poligonales diferentes o seleccione opciones de análisis diferentes.

Cuando la herramienta Buscar puntos calientes ha contado el número de puntos situados dentro de cada área de agregación, ha comprobado que todos los recuentos eran idénticos. Para calcular los resultados, esta herramienta requiere al menos alguna variación en los valores de recuento obtenidos.

Puede proporcionar áreas de agregación alternativas donde no todas las áreas tienen el mismo número exacto de puntos.

En lugar de áreas de agregación, también puede trazar o proporcionar áreas de análisis de límite.

Como alternativa, puede especificar un campo de análisis. Sin embargo, esto obliga a reformular la pregunta de ¿dónde se encuentran muchos o pocos puntos? a la pregunta ¿dónde se agrupan espacialmente los valores altos y bajos?

No existe una variación suficiente en cuanto a puntos de ubicación para calcular los puntos calientes y fríos. Los puntos que coinciden, por ejemplo, reducen la variación espacial. Puede intentar especificar un área límite, áreas de agregación (un mínimo de 30) o un campo de análisis.

Según el número de puntos y de lo diseminados que se encuentren, la herramienta crea una cuadrícula para superponer los puntos. Después de contar el número de puntos incluido en cada cuadrado de la malla y de eliminar los cuadrados con recuentos que incidan cero, han quedado menos de 30 cuadrados. Esta herramienta necesita como mínimo 30 recuentos (30 cuadrados) para proporcionar unos resultados fiables.

Si los puntos ocupan pocas ubicaciones únicas (hay muchos puntos que coinciden), una solución consiste en proporcionar áreas de agregación que superpongan los puntos, o trazar o proporcionar áreas de análisis de límite que indiquen dónde pueden situarse los puntos y dónde no.

Otra opción consiste en especificar un campo de análisis. Sin embargo, esto obliga a reformular la pregunta de ¿dónde se encuentran muchos o pocos puntos? a la pregunta ¿dónde se agrupan espacialmente los valores altos y bajos?

No existe la variación suficiente entre los puntos dentro de las áreas poligonales de límite. Puede intentar especificar unos límites mayores.

En función de las ubicaciones y el número de los puntos, la herramienta crea una cuadrícula para superponer los puntos. Después de contar el número de puntos incluido en cada cuadrado de la malla y de eliminar los cuadrados situados fuera de las áreas de análisis de límite, han quedado menos de 30 cuadrados de malla. Esta herramienta necesita como mínimo 30 recuentos (30 cuadrados) para proporcionar unos resultados fiables.

Si los puntos están situados en distintas ubicaciones dentro de las áreas de análisis de límite, bastará con crear o proporcionar unos límites mayores. Si sus puntos ocupan pocas ubicaciones únicas (hay muchos puntos que coinciden), una solución consiste en proporcionar áreas de agregación que superpongan sus puntos

Otra opción consiste en especificar un campo de análisis. Sin embargo, esto obliga a reformular la pregunta de ¿dónde se encuentran muchos o pocos puntos? a la pregunta ¿dónde se agrupan espacialmente los valores altos y bajos?

Todos los valores de su campo de análisis son probablemente los mismos. Los puntos calientes y fríos no se pueden calcular si no existe una variación en el campo que se está analizando.

Es posible que haya especificado un campo de análisis que tiene el mismo valor para todos los puntos o áreas en esta capa de análisis. La estadística usada por esta herramienta no puede resolver el problema a no ser que existan varios valores para trabajar con ellos.

Puede especificar un campo de análisis diferente o, para las entidades de punto, analizar las densidades de los puntos en lugar de los valores de los puntos.

No se han podido calcular los puntos calientes y fríos de los datos que ha proporcionado. Intenta especificar un campo de análisis cuando corresponda.

Aunque no es probable, cuando la herramienta ha creado una cuadrícula y ha contado el número de puntos incluido en cada cuadrado, los recuentos de todos los cuadrados eran idénticos.

Proporcione áreas de agregación propias, trace o proporcione áreas de análisis de límite, o especifique un campo de análisis.

El tamaño de celda debe ser menor que la banda de distancia.

Ha proporcionado un valor de Banda de distancia que es menor que el tamaño de cada celda de la cuadrícula.

Revise las unidades especificadas para Banda de distancia y Tamaño de celda, use el valor predeterminado calculado por la herramienta o use un valor que sea mayor que el tamaño de una sola celda de cuadrícula.

Puede encontrar información adicional sobre los algoritmos usados por la herramienta Buscar valores atípicos en Cómo funciona Análisis de valores atípicos optimizado.

Herramientas similares

Use Buscar valores atípicos para determinar si hay valores atípicos estadísticamente significativos en el patrón espacial de sus datos. A continuación se describen otras herramientas que pueden ser útiles.

Herramientas de análisis del Map Viewer Classic

Para buscar agrupaciones estadísticamente significativas de valores altos y bajos en el patrón espacial de sus datos, use la herramienta Buscar puntos calientes.

Para usar mediciones de punto o de línea para crear un mapa de densidad, utilice la herramienta Calcular densidad.

Herramientas de análisis de ArcGIS Pro

Buscar valores atípicos ejecuta la misma estadística usada en las herramientas Análisis de clúster y de valor atípico (I Anselin local de Moran) y Análisis de valores atípicos optimizado.