Histograma

Los histogramas resumen visualmente la distribución de una variable numérica continua midiendo la frecuencia con la que determinados valores aparecen en el dataset. En un histograma, el eje x es una línea numérica que se ha dividido en rangos de números o bins. Para cada bin, se dibuja una barra en la que el ancho de la barra representa el rango del bin y la altura de la barra representa el número de puntos de datos incluidos en ese rango. Conocer la distribución de los datos es un paso importante en el proceso de exploración de esos datos.

Variable

Los histogramas requieren una variable Número continua en el eje x.

Varias series

Se pueden crear histogramas de varias series estableciendo un campo Dividir por. Cuando se establece un campo Dividir por, el histograma se divide en varias series en función del número de categorías únicas del campo. Por ejemplo, al mostrar un histograma para un dataset relacionado con los precios de la vivienda, el control Número se establece en SoldPrice para ver la distribución de los precios de la vivienda en una ciudad. Al establecer el control Dividir por en Neighborhood el histograma se dividirá en N series, siendo N el número de valores de vecindario únicos. El histograma de varias series mostrará N minigráficos, uno para cada valor de Neighborhood único, de modo que la distribución del precio de la vivienda se pueda comparar entre los distintos valores de Dividir por.

Nota:

Los campos de categorías con muchos valores únicos no son adecuados para dividir un campo en varias series.

Mostrar varias series

Los histogramas de varias series solo se pueden visualizar con un diseño de cuadrícula, que se puede personalizar en la pestaña Series del panel Propiedades de gráfico. Puede personalizar las dimensiones del diseño de un gráfico de cuadrícula definiendo la entrada numérica de Minigráficos por fila. Por ejemplo, si se establece Minigráficos por fila en 3, se mostrará un máximo de 3 gráficos por fila. El número total de filas de la cuadrícula vendrá determinado por el número de series del gráfico. Activar la casilla Mostrar gráfico de vista previa permite explorar de forma dinámica cada minigráfico con mayor detalle seleccionando uno para verlo en el diagrama de vista previa más grande.Histograma multiseries

Transformación

Algunos métodos analíticos requieren que los datos se distribuyan normalmente. Cuando los datos están sesgados (la distribución es asimétrica), es posible que le convenga transformar los datos para que sean normales. Los histogramas le permiten explorar los efectos de las transformaciones logarítmicas y de raíz cuadrada en la distribución de sus datos. Como referencia, puede agregar una superposición de distribución normal a su histograma activando la casilla de verificación Mostrar distribución normal en el panel Propiedades de gráfico.

Transformación logarítmica

La transformación logarítmica suele utilizarse cuando los datos tienen una distribución sesgada positiva y hay pocos valores muy grandes. Si estos valores grandes están en su dataset, la transformación logarítmica le ayudará a que las varianzas sean más constantes y normalizará sus datos.

Por ejemplo, la distribución sesgada de forma positiva del gráfico de la izquierda se transforma en una distribución normal por medio de una transformación logarítmica en el gráfico de la derecha:

Gráfico de distribución de datos sin procesar a la izquierda, comparado con la transformación logarítmica a la derecha.

Nota:

Las transformaciones logarítmicas solo se pueden aplicar a números mayores que cero.

Transformación de raíz cuadrada

Una transformación de raíz cuadrada es similar a una transformación logarítmica en cuanto a que reduce el sesgo derecho de un dataset. A diferencia de las transformaciones logarítmicas, las transformaciones de raíz cuadrada se pueden aplicar a cero.

Nota:

Las transformaciones de raíz cuadrada solo se pueden aplicar a números mayores o iguales que cero.

Transformación inversa

Una transformación inversa calcula el valor recíproco (1/x) de cada valor (x) en el campo.

Nota:

Las transformaciones inversas no se pueden aplicar a valores de cero. Si hay valores de cero en el campo, se evalúan como valores nulos.

Transformación de Box-Cox

Una transformación de Box-Cox aplica la siguiente función de potencia para distribuir normalmente los valores:

Transformación Box-Cox

donde x' es el valor transformado, x es el valor original, λ1 es el parámetro Potencia y λ2 es el parámetro Desplazamiento.

Nota:

Las transformaciones de Box-Cox solo se pueden aplicar a valores positivos. Cuando existan valores negativos o de cero, utilice el parámetro Desplazamiento para asegurarse de que todos los valores sean positivos.

Número de bins

El número de bins coincide de manera predeterminada con la raíz cuadrada del número de registros del dataset. Puede ajustarlo cambiando el valor de Bins en la pestaña Datos del panel Propiedades de gráfico. Cambiar el número de bins permite ver más o menos detalle en la estructura de los datos.

Estadísticas

En los histogramas se calculan, y se muestran como líneas verticales, varias estadísticas descriptivas. La media y la mediana se muestran cada una con una línea, y también se muestra una desviación estándar por encima y por debajo de la media con dos líneas. Puede hacer clic en estos elementos en la leyenda del gráfico para activarlos o desactivarlos.

Aparece una tabla de Estadísticas en la pestaña Datos del panel Propiedades de gráfico que contiene las siguientes estadísticas para el campo numérico seleccionado:

  • Valor medio
  • Mediana
  • Desviación estándar
  • Recuento
  • Mín.
  • Máx.
  • Suma
  • Nulos
  • Sesgo
  • Curtosis

Si la capa de origen del gráfico tiene un conjunto de selección, la tabla de estadísticas tendrá una columna para las estadísticas del dataset completo y una columna para las estadísticas solo del conjunto de selección.

La tabla de estadísticas también cuenta con controles para activar y desactivar las líneas del valor medio, la mediana y la desviación estándar del histograma y cambiar su color.

Puede hacer clic con el botón derecho en la tabla de estadísticas y elegir Copiar tabla, Copiar fila o Copiar valor. De esta forma, es posible copiar y pegar estadísticas del panel Propiedades de gráfico en otras ventanas o aplicaciones.

Ejes

Varias opciones controlan los ejes y la configuración relacionada.

Límites del eje Y

Los límites predeterminados del eje y se establecen en función del rango de valores de datos representados en el eje y. Puede personalizar estos valores escribiendo un nuevo valor deseado de límite de eje. Puede configurar límites de eje como una manera de mantener la coherencia de la escala de su gráfico para la comparación. Haga clic en el botón Restablecer para revertir el límite de eje al valor predeterminado.

Formato de número

Puede formatear el modo en que un eje mostrará valores numéricos especificando una categoría de formato de número o definiendo una cadena de formato personalizada. Por ejemplo, puede utilizar $#,### como cadena de formato personalizado para mostrar valores de divisas.

Apariencia

Títulos y descripción

Los gráficos y los ejes usan títulos predeterminados basados en los nombres de las variables y el tipo de gráfico. Estos valores se pueden editar en la pestaña General del panel Propiedades de gráfico. También puede proporcionar una Descripción del gráfico, que es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.

Color

Puede cambiar el color de los bins de un histograma usando el parche de color junto a Bins en la pestaña Datos del panel Propiedades de gráfico.

Guías

Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Para agregar una nueva guía, en la pestaña Guías del panel Propiedades de gráfico, haga clic en Agregar guía. Para dibujar una línea, introduzca un valor donde desee que se dibuje la línea. Para crear un rango, introduzca un valor a. También puede agregar texto a su guía especificando una Etiqueta.

Ejemplo

Cree un histograma para visualizar la distribución de la densidad de población en los grupos de bloques censales de Washington, D.C.

  • Número:Population Density

Histograma que muestra la distribución de la densidad de población en los grupos de bloques censales de Washington, D.C.