Los histogramas resumen visualmente la distribución de una variable numérica continua midiendo la frecuencia con la que determinados valores aparecen en el dataset. En un histograma, el eje x es una línea numérica que se ha dividido en rangos de números o bins. Para cada bin, se dibuja una barra en la que el ancho de la barra representa el rango del bin y la altura de la barra representa el número de puntos de datos incluidos en ese rango. Conocer la distribución de los datos es un paso importante en el proceso de exploración de esos datos.
Variable
Los histogramas requieren una variable Número continua en el eje x.
Varias series
En el siguiente vídeo se muestra cómo crear histogramas de varias series mediante el uso de un campo Dividir por:
- Duración del vídeo: 0:57
- Este vídeo se ha creado con ArcGIS Pro 3.2.
Se pueden crear histogramas de varias series configurando el control Dividir por. Cuando se define el control Dividir por, el histograma se divide en varias series en función del número de categorías únicas del campo. Por ejemplo, al mostrar un histograma para un dataset relacionado con los precios de la vivienda, el control Número se establece en SoldPrice para ver la distribución de los precios de la vivienda en una ciudad. Al establecer el control Dividir por en Neighborhood se divide el histograma en N series en las que N es el número de valores de vecindario únicos. El histograma de varias series muestra N minigráficos, uno para cada valor de Neighborhood único, de modo que la distribución del precio de la vivienda se pueda comparar entre los distintos valores de Dividir por.
Nota:
Los campos de categorías con muchos valores únicos no son adecuados para dividir un campo en varias series.
Los histogramas de varias series solo se pueden visualizar con un diseño de cuadrícula, que se puede personalizar en la pestaña Series del panel Propiedades de gráfico. Puede personalizar las dimensiones del diseño de un gráfico de cuadrícula definiendo el valor Minigráficos por fila. Por ejemplo, si establece Minigráficos por fila a 3, se muestra un máximo de tres gráficos por fila: el número total de filas de la cuadrícula viene determinado por el número de series del gráfico. Marque la casilla Mostrar gráfico de vista previa para explorar dinámicamente cada minigráfico en detalle eligiendo uno para verlo en el gráfico de vista previa más grande.
Transformación
Algunos métodos analíticos requieren que los datos se distribuyan normalmente. Cuando los datos están sesgados (la distribución es asimétrica), es posible que le convenga transformar los datos para que sean normales. Los histogramas le permiten explorar los efectos de las transformaciones logarítmicas y de raíz cuadrada en la distribución de los datos. Como referencia, puede agregar una superposición de distribución normal a un histograma activando la casilla de verificación Mostrar distribución normal en el panel Propiedades de gráfico.
Transformación logarítmica
La transformación logarítmica se usa normalmente si los datos tienen una distribución sesgada de forma positiva y algunos valores son grandes. Si estos valores grandes están en el dataset, la transformación logarítmica le ayudará a que las varianzas sean más constantes y normalizará los datos.
Por ejemplo, la distribución sesgada de forma positiva del primer gráfico de abajo se transforma en una distribución normal mediante una transformación logarítmica en el segundo gráfico:
Nota:
Las transformaciones logarítmicas solo se pueden aplicar a números mayores que cero.
Transformación de raíz cuadrada
Una transformación de raíz cuadrada es similar a una transformación logarítmica en cuanto a que reduce el sesgo derecho de un dataset. A diferencia de las transformaciones logarítmicas, las transformaciones de raíz cuadrada se pueden aplicar a cero.
Nota:
Las transformaciones de raíz cuadrada solo se pueden aplicar a números mayores o iguales que cero.
Transformación inversa
Una transformación inversa calcula el valor recíproco (1/x) de cada valor (x) en el campo.
Nota:
Las transformaciones inversas no se pueden aplicar a valores de cero. Si hay valores de cero en el campo, se evalúan como valores nulos.
Transformación de Box-Cox
Una transformación de Box-Cox aplica la siguiente función de potencia para distribuir normalmente los valores:
donde x' es el valor transformado, x es el valor original, λ1 es el valor del parámetro Potencia y λ2 es el valor del parámetro Desplazamiento.
Nota:
Las transformaciones de Box-Cox solo se pueden aplicar a valores positivos. Cuando existan valores negativos o de cero, utilice el parámetro Desplazamiento para asegurarse de que todos los valores sean positivos.
Número de bins
El valor predeterminado del número de bins es la raíz cuadrada del número de registros del dataset. Puede ajustarlo cambiando el valor de Bins en la pestaña Datos del panel Propiedades de gráfico. Cambiar el número de bins le permite ver con más o menos detalle la estructura de los datos.
Nota:
Los histogramas están limitados a un máximo de 64 bins. Este límite se impone porque el uso de demasiados bins da lugar con frecuencia a un histograma ruidoso en el que las características de la distribución son difíciles de interpretar.
Estadísticas
En los histogramas se calculan, y se muestran como líneas verticales, varias estadísticas descriptivas. La media y la mediana se muestran cada una con una línea, y también se muestra una desviación estándar por encima y por debajo de la media con dos líneas. Puede hacer clic en estos elementos en la leyenda del gráfico para activarlos o desactivarlos.
Aparece una tabla de estadísticas en la pestaña Datos del panel Propiedades de gráfico que contiene las siguientes estadísticas para el campo numérico seleccionado:
- Valor medio
- Mediana
- Desviación estándar
- Recuento
- Mín.
- Máx.
- Suma
- Nulos
- Sesgo
- Curtosis
Si la capa de origen del gráfico tiene un conjunto de selección, la tabla de estadísticas tendrá una columna para las estadísticas del dataset completo y una columna para las estadísticas solo del conjunto de selección.
La tabla de estadísticas también cuenta con controles para activar y desactivar las líneas del valor medio, la mediana y la desviación estándar del histograma y cambiar su color.
Para copiar estadísticas del panel Propiedades de gráfico en otras ventanas o aplicaciones, haga clic con el botón derecho en la tabla de estadísticas y elija Copiar tabla, Copiar fila o Copiar valor.
Ejes
Varias opciones controlan los ejes y la configuración relacionada.
Límites del eje Y
Los límites predeterminados del eje y se establecen en función del rango de valores de datos representados en el eje y. Puede personalizar estos valores proporcionando un nuevo valor límite de eje. Puede configurar límites de eje para mantener la coherencia de la escala del gráfico para la comparación. Haga clic en el botón Restablecer para revertir el límite de eje al valor predeterminado.
Intervalos de cuadrícula
Configure los intervalos de cuadrícula para el eje y utilizando el control Intervalo. El intervalo de cuadrícula predeterminado se calcula automáticamente.
Formato de número
Puede formatear el modo en que un eje mostrará valores numéricos especificando una categoría de formato de número o definiendo una cadena de formato personalizada. Por ejemplo, puede utilizar $#,### como cadena de formato personalizado para mostrar valores de divisas.
Apariencia
Títulos y descripción
Los gráficos y los ejes usan títulos predeterminados basados en los nombres de las variables y el tipo de gráfico. Estos valores se pueden editar en la pestaña General del panel Propiedades de gráfico. También puede proporcionar una Descripción del gráfico, que es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.
Color
Puede cambiar el color de los bins de un histograma usando el parche de color junto a Bins en la pestaña Datos del panel Propiedades de gráfico.
Guías
Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Para agregar una nueva guía, en la pestaña Guías del panel Propiedades de gráfico, haga clic en Agregar guía. Para dibujar una línea, introduzca un valor donde desee que se dibuje la línea. Para crear un rango, introduzca un valor a. También puede agregar texto a su guía especificando una Etiqueta.
Ejemplo
En el histograma siguiente se visualiza la distribución de la densidad de población en los grupos de bloques censales de Washington, D.C.
- Número:Population Density