Disponible en análisis de big data.
La herramienta Buscar puntos calientes identifica puntos calientes y puntos fríos estadísticamente significativos en el patrón espacial de los datos utilizando la estadística Getis-Ord Gi*.
Diagrama de flujo de trabajo
Ejemplos
A continuación, se muestran ejemplos de uso de la herramienta Buscar puntos calientes:
- El departamento de policía de una ciudad está realizando un análisis para determinar si existe una relación entre los delitos violentos y las tasas de desempleo. Se implementará un programa de trabajo de verano ampliado para los institutos de las zonas con una tasa elevada de delitos violentos y de desempleo. La herramienta Buscar puntos calientes se usará para buscar áreas con puntos calientes estadísticamente significativos de delito y desempleo.
- Un oficial de conservación está estudiando enfermedades en los árboles para dar prioridad a las áreas del bosque que deben recibir tratamiento y obtener más información sobre las áreas que muestran alguna resistencia. La herramienta Buscar puntos calientes se puede usar para buscar clústeres de árboles enfermos (puntos calientes) y sanos (puntos fríos).
Notas de uso
Tenga en cuenta lo siguiente al trabajar con la herramienta Buscar puntos calientes:
- Las entidades de entrada deben ser una capa de puntos. Los puntos se consolidarán en una cuadrícula cuadrada (bins) de un tamaño especificado antes del análisis
- La capa de salida tendrá campos adicionales que contienen información como la significancia estadística de cada entidad, el valor p y la puntuación z.
- Durante el análisis, los puntos de entrada se agregan en bins de un tamaño especificado. A continuación, se analizan para determinar los puntos calientes. Los bins agregados deben contener diversos valores (los recuentos de puntos de un bin deben ser muy variables).
- Las puntuaciones z y los valores p son mediciones de importancia estadística que indican si el clustering espacial de valores altos o bajos observado es más marcado de lo que se espera en una distribución aleatoria de esos mismos valores. A continuación, puede determinar si desea aceptar o rechazar la hipótesis nula utilizando bins agregados. Los campos de puntuación z y valor p no reflejan ningún tipo de corrección de Índice de descubrimientos falsos (FDR).
- Una puntuación z alta y un valor p pequeño para una entidad indican una presencia intensa de incidentes de puntos. Una puntuación z negativa baja y un valor p pequeño indican una ausencia de incidentes de puntos. Mientras más alta (o más baja) sea la puntuación z, más intenso será el clustering. Una puntuación z cercana a cero indica que no hay un clustering espacial evidente.
- La puntuación z está basada en el cálculo de la hipótesis nula de aleatorización. Para obtener más información sobre las puntuaciones z, consulte ¿Qué es una puntuación z? ¿Qué es un valor P?.
- La herramienta Buscar puntos calientes permite analizar utilizando periodos de tiempo. Cada intervalo de tiempo se analiza con independencia de las entidades que quedan fuera de él. Para usar periodos de tiempo, los datos de entrada deben tener la función de tiempo habilitada y representar un instante en el tiempo. Al aplicar periodos de tiempo, las entidades de salida serán intervalos de tiempo representados por los campos StartTime y EndTime.
- El parámetro Referencia de periodo de tiempo puede ser un valor de fecha y hora o simplemente un valor de fecha; no puede ser solo un valor de hora.
Parámetros
A continuación, se indican los parámetros de la herramienta Buscar puntos calientes:
Parámetro | Descripción | Tipo de datos |
---|---|---|
Capa de entrada | Las entidades de punto para las que se calcularán los puntos calientes. | Entidades |
Tipo de bin | La forma de bin que se utilizará para crear los bins regulares. El valor predeterminado es Cuadrado. | Cadena de caracteres |
Tamaño de bin | El intervalo de distancia que representa el tamaño de bin en el que se analizará la entrada de puntos. | Cadena de caracteres |
Tamaño de vecindad (opcional) | La extensión espacial de la vecindad de análisis. Este valor determina qué entidades se analizan conjuntamente para evaluar el clustering local. | Cadena de caracteres |
Intervalo de periodo de tiempo (opcional) | El intervalo del periodo de tiempo. Este parámetro solo se utiliza si el esquema de los puntos de entrada tiene un campo etiquetado con el campo clave Hora de inicio. | Cadena de caracteres |
Alineación de periodo de tiempo (opcional) | Especifica cómo se alinearán los periodos de tiempo. Este parámetro solo está disponible si los puntos de entrada tienen el tiempo habilitado y representan un instante en el tiempo.
| Cadena de caracteres |
Referencia de periodo de tiempo (opcional) | El tiempo de referencia para los periodos de tiempo e intervalos de tiempo con los que alinear. Este parámetro solo aparece si se utiliza Tiempo de referencia para el parámetro Alineación de periodo de tiempo. | Fecha |
Capa de salida
La capa de salida contendrá los siguientes campos en lugar de los campos originales:
Nombre de campo | Descripción | Tipo de campo |
---|---|---|
value | El número de entidades de ese bin. | Float64 |
GiZScore | La puntuación z de las entidades de ese bin. | Float64 |
GiPValue | El valor p de las entidades de ese bin. | Float64 |
GI_Bin | El nivel de confianza utilizado para identificar puntos calientes y fríos estadísticamente significativos. Las entidades con un valor Gi_Bin de +/-3 reflejan la importancia estadística con un nivel de confianza del 99 %; las entidades con un valor Gi_Bin de +/-2 reflejan un nivel de confianza del 95 %; las entidades con un valor Gi_Bin de +/-1 reflejan un nivel de confianza del 90 %; y el clustering para las entidades con un valor Gi_Bin de 0 no son estadísticamente significativas. | Float64 |