Histograma

Los histogramas resumen visualmente la distribución de una variable numérica continua midiendo la frecuencia con la que determinados valores aparecen en el dataset. En un histograma, el eje x es una línea numérica que se ha dividido en rangos de números o bins. Para cada bin, se dibuja una barra en la que el ancho de la barra representa el rango del bin y la altura de la barra representa el número de puntos de datos incluidos en ese rango. Conocer la distribución de los datos es un paso importante en el proceso de exploración de esos datos.

Ejemplo

En el histograma siguiente se visualiza la distribución de la participación electoral en las elecciones de Estados Unidos de 2016.

  • Número: participación electoral
  • Superposiciones: valor medio, distribución normal
Histograma de participación electoral en las elecciones de Estados Unidos de 2016

Datos

Las configuraciones de la pestaña Datos Datos incluyen la variable que se utiliza para crear un histograma, el número de bins y las estadísticas que se muestran en el gráfico.

Variable

Los histogramas requieren una variable Número continua en el eje x.

Algunos métodos analíticos requieren que los datos se distribuyan normalmente. Cuando los datos están sesgados (la distribución es asimétrica), puede transformar los datos para que sean normales. Puede aplicar transformaciones al gráfico con el parámetro Con transformación. Las transformaciones pueden ser logarítmicas o de raíz cuadrada.

Sugerencia:

Como referencia, puede agregar una superposición de distribución normal al histograma seleccionando Distribución normal en Superposiciones.

Transformación logarítmica

La transformación logarítmica se usa normalmente si los datos tienen una distribución sesgada de forma positiva y algunos valores son grandes. Si estos valores grandes están en su dataset, puede utilizar la transformación logarítmica para que las varianzas sean más constantes y normalizar los datos.

Los siguientes ejemplos muestran la distribución de los votos totales en las elecciones de Estados Unidos de 2016. La primera imagen está sesgada de forma positiva y no tiene ninguna transformación aplicada. La segunda imagen tiene aplicada una transformación logarítmica que otorga al histograma una distribución más normal.

Histogramas de votos totales con y sin transformación logarítmica

ImagenTransformación
Imagen 1

Ninguno

Imagen 2

Logarítmico

Nota:

Las transformaciones logarítmicas solo se pueden aplicar a números mayores que cero.

Transformación de raíz cuadrada

Una transformación de raíz cuadrada es similar a una transformación logarítmica en cuanto a que reduce el sesgo derecho de un dataset. A diferencia de las transformaciones logarítmicas, las transformaciones de raíz cuadrada se pueden aplicar a cero.

Nota:

Las transformaciones de raíz cuadrada solo se pueden aplicar a números mayores o iguales que cero.

Bins

El número de bins predeterminado es 32. Puede ajustarlo cambiando el valor de Bins en la pestaña Datos. Cambiar el número de bins permite ver más o menos detalle en la estructura de los datos.

Puede cambiar el color de los bins de un histograma con el parche de color situado junto a Color de bins.

Superposiciones

En los histogramas se calculan las siguientes estadísticas descriptivas y se muestran como líneas:

  • Distribución normal: una curva con forma de campana utilizada para comparar los datos con una distribución normal
  • Valor medio: una única línea vertical que indica el valor medio del dataset
  • Mediana: una única línea vertical que indica la mediana del dataset
  • Desviación estándar: dos líneas verticales que indican los valores de una desviación estándar por encima y por debajo de la media

Haga clic en la superposición para activarla o desactivarla. Puede cambiar el color de la línea mediante el parche de color junto a la estadística.

Puede activar las etiquetas con el parámetro Mostrar etiquetas de datos. Las etiquetas indican el recuento de valores para cada bin.

Estadísticas

Se enumeran las siguientes estadísticas para el campo numérico seleccionado:

  • Valor medio
  • Medio
  • Desviación estándar
  • Filas
  • Recuento
  • Mínimo
  • Máximo
  • Suma
  • Nulos

Ejes

Las configuraciones de la pestaña Ejes Ejes se utilizan para cambiar las especificaciones del eje x y del eje y.

Puede formatear el modo en que los ejes x e y muestran valores numéricos especificando el número de posiciones decimales y si se incluye un separador de miles.

Los límites predeterminados del eje y se establecen en función del rango de valores de datos representados en el eje y. Puede personalizar estos valores escribiendo un valor de Límites máximos. Configure un límite del eje y para mantener la coherencia de la escala de su gráfico para la comparación. Haga clic en el botón Restablecer para revertir el límite de eje al valor predeterminado.

Guías

Las configuraciones de la pestaña Guías Guías se utilizan para agregar guías o rangos de guía al gráfico.

Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Las guías se agregan al eje y haciendo clic en el botón Agregar guía.

Para crear una línea de guía, introduzca un valor de Inicio donde desee que se dibuje la línea. Para crear un rango de guía, introduzca un valor de Inicio y un valor de Fin. También puede cambiar la apariencia de la línea o el rango de guía. Para las líneas, es posible actualizar el estilo, el ancho y el color. En el caso de los rangos, es posible actualizar el color de relleno.

Si lo desea, puede cambiar el nombre de la guía con el parámetro Nombre de guía y agregar texto a la guía con el parámetro Etiqueta de guía (por ejemplo, Mediana).

Puede elegir si la guía se renderiza por encima del gráfico o por debajo del gráfico usando los botones Por encima y Por debajo del parámetro Renderizar.

Formato

Las configuraciones de la pestaña Formato Formato se utilizan para cambiar el aspecto del gráfico al formatear los elementos de texto y símbolo.

Entre las opciones para aplicar formato al gráfico se incluyen las siguientes:

  • Elementos de texto: tamaño, color y estilo de la fuente utilizada para el título del gráfico, título del eje x, título del eje y, título de la leyenda, texto de descripción, texto de leyenda, etiquetas de ejes y etiquetas de datos. Puede cambiar el formato de varios elementos a la vez pulsando Ctrl y haciendo clic para seleccionar los elementos.
  • Elementos de símbolo: color, ancho y estilo (Sólido, Punto o Guion) para la cuadrícula y las líneas de eje y el color de fondo del gráfico.

General

Las configuraciones de la pestaña General General se utilizan para actualizar los títulos del gráfico, los ejes y la leyenda.

Los títulos predeterminados para los gráficos y los ejes se basan en los nombres de variable y el tipo de gráfico. Puede editar o desactivar los títulos en la pestaña General. También puede proporcionar un título en el parámetro Título de leyenda. La Alineación de leyenda se puede definir como Derecha, Izquierda, Superior o Inferior. También puede agregar una descripción del gráfico en el parámetro Descripción. Una descripción es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.

Recursos

Utilice estos recursos para obtener más información sobre los gráficos: