Diagrama de caja

Los diagramas de caja le permiten visualizar y comparar la distribución y la tendencia central de valores numéricos mediante sus cuartiles. Los cuartiles representan un método para dividir valores numéricos en cuatro grupos iguales basados en cinco valores clave: mínimo, primer cuartil, mediana, tercer cuartil y máximo.

La parte de la caja del diagrama siguiente ilustra el 50 por ciento medio de los valores de los datos, también conocido como rango intercuartílico o IQR. Le media de los valores se representa como la línea que divide la caja por la mitad. El IQR ilustra la variabilidad en un conjunto de valores. Un IQR grande indica una amplia dispersión de los valores, mientras que un IQR más pequeño indica que la mayoría de los valores quedan hacia el centro. Los diagramas de caja también ilustran los valores mínimos y máximos de los datos mediante bigotes, o líneas, que se extienden desde la caja y, opcionalmente, valores atípicos como puntos que se extienden más allá de los bigotes.

Diagrama de caja

Ejemplo

El diagrama de caja siguiente muestra la distribución de la esperanza de vida por continente en incrementos de 20 años desde 1800 hasta 2040.

  • Campos numéricos:Life expectancy
  • Categoría:Year
  • Dividir por:Continent
  • Mostrar valores atípicos: habilitado

Diagrama de caja de la esperanza de vida por continente

El mismo diagrama de caja también puede visualizarse utilizando líneas de valor medio.

Esperanza de vida por continente con líneas de valor medio

Datos

Las configuraciones de la pestaña Datos Datos incluyen las variables que se utilizan para crear el diagrama de caja.

Variables

Los diagramas de caja se componen de un eje x y un eje y. El eje x asigna una caja para cada variable de categoría o numérica. El eje y se utiliza para medir los valores mínimo, primer cuartil, mediana, tercer cuartil y máximo en un conjunto de números.

Puede utilizar diagramas de caja para visualizar una o varias distribuciones. Para visualizar una única distribución, agregue una variable de Campos numéricos. Así se consigue un gráfico con un diagrama de caja que visualiza la distribución del atributo numérico elegido.

Puede agregar otras variables de Campos numéricos para comparar varias distribuciones de campos de atributo diferentes en una tabla. Por ejemplo, en un dataset de condados, los campos Population2010 y Population2015 se agregan como variables de Campos numéricos. El gráfico resultante muestra dos diagramas de caja, uno con el que se visualiza la distribución de Population2010 y otro con el que se visualiza la distribución de Population2015 para todos los condados del dataset.

Cuando crea un diagrama de caja a partir de varios campos numéricos, se aplica una estandarización de puntuación z de forma predeterminada. La estandarización permite que las variables numéricas de diferentes unidades sean comparables.

Por ejemplo, un diagrama de caja que compara las distribuciones de ingresos (con valores de decenas de miles) y la tasa de desempleo (valores comprendidos entre 0 y 1,0) sería difícil de leer sin estandarización, ya que los valores de tasa de desempleo son mucho más pequeños que los valores de ingresos.

La estandarización de los valores de atributos implica una transformación z en la que el valor medio de todos los valores se resta de cada valor y se divide entre la desviación estándar de todos los valores. La estandarización de puntuación z sitúa todos los atributos en la misma escala, lo cual permite que varias distribuciones se visualicen en el mismo gráfico. Para visualizar los valores sin procesar en su lugar, desactive Valores estandarizados (puntuación z).

Cuando solo se agrega una única variable de Campos numéricos, puede agregar una variable de Categoría como método para comparar distribuciones entre categorías. Por ejemplo, Population2010 está configurado como la variable Campos numéricos y StateName como la variable Categoría para un dataset de condados. El gráfico resultante muestra un diagrama de caja para cada estado, con el que se visualizará la distribución de Population2010 para todos los condados que pertenezcan a cada estado.

Varias series

Puede utilizar diagramas de caja de varias series para comparar distribuciones de distintos tipos o por categorías diferentes.

Los diagramas de caja de varias series se pueden crear especificando un campo de categoría y varios campos numéricos o especificando un campo de categoría Dividir por.

Al utilizar una variable de Categoría con varias variables de Campos numéricos, cada campo numérico agregado a la tabla de series crea una serie. Por ejemplo, en un dataset de condados, StateName está configurado como la variable de Categoría y Population2010, Population2015 y Population2020 están configurados como las variables de Campos numéricos. El gráfico resultante tendrá estados como categorías a lo largo del eje x, con tres series cada uno (Population2010, Population2015 y Population2020).

También se puede agregar la variable Dividir por para dividir aún más los datos y crear varias series. Por ejemplo, Population2010 está configurado como la variable de Campos numéricos, StateName como la variable de Categoría y ElectionWinner como el campo Dividir por para un dataset de condados. El gráfico resultante mostrará dos diagramas de caja en paralelo para cada estado (un total de 100 diagramas de caja): uno que muestra la distribución de Population2010 de todos los condados de cada estado con el valor de ElectionWinner como Democrat, y otro para todos los condados de cada estado con el valor de ElectionWinner como Republican.

También puede utilizar campos Dividir por cuando se utilizan varias variables de Campos numéricos en lugar de una variable de Categoría. Por ejemplo, Population2010, Population2015 y Population2020 están configurados como las variables de Campos numéricos y ElectionWinner está configurado como el campo Dividir por para un dataset de condados. El gráfico resultante mostrará las tres variables de Campos numéricos a lo largo del eje x (Population2010, Population2015 y Population2020), cada uno de ellos con dos diagramas de caja en paralelo: uno para visualizar la distribución de todos los condados con el valor de ElectionWinner como Democrat y otro para todos los condados con el valor de ElectionWinner como Republican.

Valores atípicos

Puede mostrar los valores atípicos como puntos que se extienden más allá de los bigotes habilitando Mostrar valores atípicos. Si no se habilita Mostrar valores atípicos, las patillas se extenderán para abarcar todos los puntos de datos.

Orden de clasificación

Los diagramas de caja se ordenan automáticamente en orden alfabético por categoría (eje X ascendente). Puede cambiar el orden de clasificación mediante el parámetro Orden de clasificación. Las siguientes opciones de ordenación están disponibles para los diagramas de caja:

  • Eje x ascendente: las categorías se ordenan alfabéticamente de izquierda a derecha.
  • Eje x descendente: las categorías se clasifican en orden alfabético inverso.
  • Valor medio ascendente: las cajas se organizan en función de la estadística de valor medio en orden ascendente.
  • Valor medio descendente: las cajas se organizan en función de la estadística de valor medio en orden descendente.
  • Mediana ascendente: las cajas se organizan en función de la estadística de mediana en orden ascendente.
  • Mediana descendente: las cajas se organizan en función de la estadística de mediana en orden descendente.
  • Orden personalizado: las categorías se pueden organizar manualmente en la lista Categoría. Para cambiar el orden de clasificación, mantenga pulsado Reposicionar Reposicionar y arrastre la categoría a una nueva posición o seleccione la categoría y haga clic en la flecha hacia arriba Arriba o hacia abajo Abajo. Por ejemplo, tal vez quiera organizar los días de la semana en su orden natural.

Serie

Las configuraciones de la pestaña Serie Serie se utilizan para cambiar el color y la etiqueta de las cajas en el diagrama de caja.

Mostrar varias series también está disponible cuando se especifica un campo Dividir por para crear varias series. Entre las opciones de visualización se incluyen las siguientes:

  • Paralelo: crea los diagramas de caja en paralelo, uno para cada serie.
  • Líneas de valor medio: crea un diagrama de caja para cada variable de Categoría o Campo numérico y usa líneas para mostrar el valor medio de cada valor único del campo Dividir por.

Ejes

Las configuraciones de la pestaña Ejes Ejes se utilizan para cambiar las especificaciones del eje x y del eje y.

Eje X

Las etiquetas de categoría se truncan en 11 caracteres de forma predeterminada. Cuando las etiquetas están truncadas, puede ver el texto completo desplazando el puntero por encima de la etiqueta. Para mostrar todo el texto de la etiqueta en el gráfico, aumente el valor de Límite de caracteres de etiqueta.

Eje Y

Los límites predeterminados del eje y se establecen en función del rango de valores de datos representados en el eje y. Puede personalizar estos valores especificando un valor de Límites mínimos o Límites máximos. Configure un límite del eje y para mantener la coherencia de la escala de su gráfico para la comparación. Haga clic en el botón Restablecer para revertir el límite de eje al valor predeterminado.

Puede formatear el modo en que el eje y muestra valores numéricos especificando el número de posiciones decimales y si se incluye un separador de miles.

Guías

Las configuraciones de la pestaña Guías Guías se utilizan para agregar guías o rangos de guía al gráfico.

Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Las guías se agregan al eje y haciendo clic en el botón Agregar guía.

Para crear una línea de guía, introduzca un valor de Inicio donde desee que se dibuje la línea. Para crear un rango de guía, introduzca un valor de Inicio y un valor de Fin. También puede cambiar la apariencia de la línea o el rango de guía. Para las líneas, es posible actualizar el estilo, el ancho y el color. En el caso de los rangos, es posible actualizar el color de relleno.

Si lo desea, puede cambiar el nombre de la guía con el parámetro Nombre de guía y agregar texto a la guía con el parámetro Etiqueta de guía (por ejemplo, Mediana).

Puede elegir si la guía se representa delante o detrás del gráfico mediante los botones Delante y Detrás del parámetro Visualización.

Formato

Las configuraciones de la pestaña Formato Formato se utilizan para cambiar el aspecto del gráfico al formatear los elementos de texto y símbolo.

Entre las opciones para aplicar formato al gráfico se incluyen las siguientes:

  • Elementos de texto: tamaño, color y estilo de la fuente utilizada para el título del gráfico, título del eje x, título del eje y, título de la leyenda, texto de descripción, texto de leyenda, etiquetas de ejes y etiquetas de datos. Puede cambiar el formato de varios elementos a la vez pulsando Ctrl y haciendo clic para seleccionar los elementos.
  • Elementos de símbolo: color, ancho y estilo (Sólido, Punto o Guion) para la cuadrícula y las líneas de eje y el color de fondo del gráfico.

General

Las configuraciones de la pestaña General General se utilizan para actualizar los títulos del gráfico, los ejes y la leyenda.

Los títulos predeterminados para los gráficos y los ejes se basan en los nombres de variable y el tipo de gráfico. Puede editar o desactivar los títulos en la pestaña General. También puede proporcionar un título en el parámetro Título de leyenda. La Alineación de leyenda se puede definir como Derecha, Izquierda, Superior o Inferior. También puede agregar una descripción del gráfico en el parámetro Descripción. Una descripción es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.

Recursos

Utilice estos recursos para obtener más información sobre los gráficos: