Buscar puntos calientes

Icono de la herramienta Disponible en análisis de big data.

La herramienta Buscar puntos calientes herramienta Buscar puntos calientes identifica puntos calientes y puntos fríos estadísticamente significativos en el patrón espacial de los datos utilizando la estadística Getis-Ord Gi*.

Diagrama de flujo de trabajo

Diagrama del flujo de trabajo Buscar puntos calientes

Ejemplos

  • El departamento de policía de una ciudad está realizando un análisis para determinar si existe una relación entre los delitos violentos y las tasas de desempleo. Se implementará un programa de trabajo de verano ampliado para los institutos de las zonas con una tasa elevada de delitos violentos y de desempleo. La herramienta Buscar puntos calientes se usará para buscar áreas con puntos calientes estadísticamente significativos de delito y desempleo.
  • Un oficial de conservación está estudiando enfermedades en los árboles para dar prioridad a las áreas del bosque que deben recibir tratamiento y obtener más información sobre las áreas que muestran alguna resistencia. La herramienta Buscar puntos calientes se puede usar para buscar clústeres de árboles enfermos (puntos calientes) y sanos (puntos fríos).

Notas de uso

  • Las entidades de entrada deben ser puntos. Los puntos los analizan entidades consolidadas dentro de una cuadrícula cuadrada (bins).
  • La capa de salida tendrá campos adicionales que contienen información como la significancia estadística de cada entidad, el valor p y la puntuación z.
  • Durante el análisis, los puntos de entrada se agregan en bins de un tamaño especificado. A continuación, se analizan para determinar los puntos calientes. Los bins agregados deben contener diversos valores (los recuentos de puntos de un bin deben ser muy variables).
  • Las puntuaciones z y los valores p son mediciones de importancia estadística que indican si el clustering espacial de valores altos o bajos observado es más marcado de lo que se espera en una distribución aleatoria de esos mismos valores. A continuación, puede determinar si desea aceptar o rechazar la hipótesis nula utilizando bins agregados. Los campos de puntuación z y valor p no reflejan ningún tipo de corrección de Índice de descubrimientos falsos (FDR).
  • Una puntuación z alta y un valor p pequeño para una entidad indican una presencia intensa de incidentes de puntos. Una puntuación z negativa baja y un valor p pequeño indican una ausencia de incidentes de puntos. Mientras más alta (o más baja) sea la puntuación z, más intenso será el clustering. Una puntuación z cercana a cero indica que no hay un clustering espacial evidente.
  • La puntuación z está basada en el cálculo de la hipótesis nula de aleatorización. Para obtener más información sobre las puntuaciones z, consulte ¿Qué es una puntuación z? ¿Qué es un valor P?.
  • La herramienta Buscar puntos calientes permite analizar utilizando periodos de tiempo. Cada intervalo de tiempo se analiza con independencia de las entidades que quedan fuera de él. Para usar periodos de tiempo, los datos de entrada deben tener la función de tiempo habilitada y representar un instante en el tiempo. Al aplicar periodos de tiempo, las entidades de salida serán intervalos de tiempo representados por los campos StartTime y EndTime.
  • El parámetro Referencia de periodo de tiempo puede ser un valor de fecha y hora o simplemente un valor de fecha; no puede ser solo un valor de hora.

Parámetros

ParámetroDescripciónTipo de datos

Capa de entrada

Las entidades de punto para las que se calcularán los puntos calientes.

Entidades

Tipo de bin

La forma de bin que se utilizará para crear los bins regulares. El valor predeterminado es Cuadrado.

Cadena de caracteres

Tamaño de bin

El intervalo de distancia que representa el tamaño de bin en el que se analizará la entrada de puntos.

Cadena de caracteres

Tamaño de vecindad (opcional)

La extensión espacial de la vecindad de análisis. Este valor determina qué entidades se analizan conjuntamente para evaluar el clustering local.

Cadena de caracteres

Intervalo de periodo de tiempo (opcional)

El intervalo del periodo de tiempo. Este parámetro solo se utiliza si el esquema de los puntos de entrada tiene un campo etiquetado con el campo clave Hora de inicio.

Cadena de caracteres

Alineación de periodo de tiempo (opcional)

Especifica cómo se alinearán los periodos de tiempo. Este parámetro solo está disponible si los puntos de entrada tienen el tiempo habilitado y representan un instante en el tiempo.

  • Hora de inicio: los periodos de tiempo se alinean con el primer evento en el tiempo y se agregan hacia delante en el tiempo.
  • Hora de finalización: los periodos de tiempo se alinean con el último evento en el tiempo y se agregan hacia atrás en el tiempo.
  • Tiempo de referencia: los periodos de tiempo se alinean a una fecha y hora especificadas. Si todos los puntos de las entidades de entrada tienen una marca de tiempo mayor que el tiempo de referencia indicado (o si es exactamente el punto de tiempo inicial de las entidades de entrada), el intervalo del periodo de tiempo empezará en ese instante de referencia y se agregará hacia delante en el tiempo (como sucede con la alineación de hora de inicio). Si todos los puntos de las entidades de entrada tienen una marca de tiempo menor que el instante de tiempo de referencia indicado (o si es exactamente el punto de tiempo final de las entidades de entrada), el intervalo del periodo de tiempo finalizará en ese instante de referencia y se agregará hacia atrás en el tiempo (como sucede con la alineación de hora de finalización). Si el tiempo de referencia indicado está en la mitad de la extensión de tiempo de los datos, se creará un intervalo de periodo de tiempo que terminará por el tiempo de referencia indicado (como sucede con la alineación de hora de finalización). Se crearán intervalos adicionales tanto antes como después del tiempo de referencia hasta que se haya cubierto toda la extensión de tiempo de los datos.

Cadena de caracteres

Referencia de periodo de tiempo (opcional)

El tiempo de referencia para los periodos de tiempo e intervalos de tiempo con los que alinear. Este parámetro solo aparece si se utiliza Tiempo de referencia para el parámetro Alineación de periodo de tiempo.

Fecha

Capa de salida

La capa de salida contendrá los siguientes campos en lugar de los campos originales:

Nombre de campoDescripciónTipo de campo

value

El número de entidades de ese bin.

Float64

GiZScore

La puntuación z de las entidades de ese bin.

Float64

GiPValue

El valor p de las entidades de ese bin.

Float64

GI_Bin

El nivel de confianza utilizado para identificar puntos calientes y fríos estadísticamente significativos. Las entidades con un valor Gi_Bin de +/-3 reflejan la importancia estadística con un nivel de confianza del 99 %; las entidades con un valor Gi_Bin de +/-2 reflejan un nivel de confianza del 95 %; las entidades con un valor Gi_Bin de +/-1 reflejan un nivel de confianza del 90 %; y el clustering para las entidades con un valor Gi_Bin de 0 no son estadísticamente significativas.

Float64

Consideraciones y limitaciones

Las entradas deben incluir una capa de puntos y se agregarán a bins de un tamaño especificado antes del análisis.