Skip To Content

Crear y utilizar un diagrama de caja

Los diagramas de caja proporcionan un resumen visual rápido de la variabilidad de los valores de un dataset. Muestran la mediana, los cuartiles superior e inferior, los valores mínimo y máximo y los valores atípicos del dataset. Los valores atípicos pueden revelar errores o casos inusuales en los datos. Un diagrama de caja se crea usando varios campos de índice/ratio en el eje Y.

Los diagramas de caja pueden responder a preguntas sobre los datos, por ejemplo: ¿cómo se distribuyen los datos? ¿Hay algún valor atípico en el dataset? ¿Cuáles son las variaciones en la extensión de varias series en el dataset?

Ejemplos

Un investigador de mercado está estudiando el rendimiento de una cadena de venta minorista. Se puede utilizar un diagrama de caja de los ingresos anuales de cada tienda para determinar la distribución de las ventas, incluidos los valores mínimo, máximo y la mediana.

Un diagrama de caja de ingresos de tienda

El diagrama de caja anterior muestra que la mediana del importe de venta es 1.111.378 $ (se muestra al pasar el cursor por el gráfico o usando el botón Información Información para invertir la tarjeta). La distribución parece bastante uniforme, con la mediana situada en medio de la caja y las patillas de un tamaño similar. También existen valores atípicos bajos y altos, lo que le indica a la analista qué tiendas presentan un rendimiento demasiado alto o demasiado bajo.

Para conocer más a fondo los datos, la analista decide crear diagramas de caja individuales para cada región en la que están ubicadas las tiendas. Esto se hace cambiando el campo Agrupar por a Región. El resultado son cuatro diagramas de caja individuales que se pueden comparar para averiguar información sobre cada región.

Un diagrama de caja de los ingresos de tienda para cada región

Basándose en los diagramas de caja, la analista puede saber que existen algunas diferencias entre regiones; las medianas son uniformes en los cuatro diagramas de caja, las cajas presentan tamaños similares y todas las regiones tienen valores atípicos tanto en el extremo mínimo como en el máximo. Sin embargo, las patillas de las regiones Norte y Central son ligeramente más pequeñas que las de las regiones Zona de la bahía y Sur, lo que implica que dichas regiones tienen un rendimiento más uniforme que otras. En las regiones Zona de la bahía y Sur, las patillas son un poco más largas, lo que implica que dichas regiones tienen tiendas que registran un rendimiento deficiente, además de tiendas con un buen rendimiento. Puede que la analista desee centrar su análisis en esas dos regiones para averiguar por qué existen tales variaciones en el rendimiento.

Crear un diagrama de caja

Para crear un diagrama de caja, siga estos pasos:

  1. Seleccione una de las siguientes opciones de datos:
    • Un campo numérico Campo numérico o de índice/ratio Campo de índice/ratio.
    • Un campo numérico Campo numérico o de índice/ratio Campo de índice/ratio más un campo de cadena de caracteres Campo de cadena de caracteres.
  2. Cree un diagrama de caja siguiendo estos pasos:
    1. Arrastre los campos seleccionados a una nueva tarjeta.
    2. Pase el puntero por la zona de colocación del Gráfico.
    3. Suelte los campos seleccionados en el Diagrama de caja.
Sugerencia:

También puede crear gráficos usando el menú Gráfico situado encima del panel de datos o el botón Tipo de visualización Tipo de visualización de una tarjeta existente. Para el menú Gráfico, solo se habilitarán los gráficos compatibles con su selección de datos. Para el menú Tipo de visualización, solo se mostrarán visualizaciones compatibles (incluidos mapas, gráficos o tablas).

Nota:

Los diagramas de caja creados a partir de datasets de bases de datos deben tener al menos cinco registros. Los diagramas de caja con menos de cinco registros es más probable que se den cuando se agrupa un diagrama de caja usando un campo de cadena de caracteres o se aplica un filtro a un dataset o una tarjeta. Los datasets de base de datos están disponibles a través de las conexiones de base de datos de Insights Enterprise e Insights Local.

Notas de uso

El botón Leyenda Leyenda se puede usar para cambiar el Color del gráfico si el diagrama de caja se ha creado usando solo un campo numérico o de índice/ratio. Si se usa un campo de categoría para agrupar los datos numéricos, la Leyenda se puede usar para ver las categorías y los colores correspondientes y para seleccionar entidades en el gráfico. Para cambiar el color asociado a una categoría, haga clic en el símbolo y elija un color de la paleta o introduzca un valor hexadecimal.

Se puede seleccionar un campo Agrupar por opcional en el eje X. Si se usa un campo Agrupar por, se pueden crear diagramas de caja en paralelo, de manera que cada diagrama represente la extensión de los datos de cada categoría.

Use el botón Tipo de visualización Tipo de visualización para cambiar directamente entre un diagrama de caja y otras visualizaciones, por ejemplo, un mapa de símbolos proporcionales, una tabla de resumen o un histograma. Si el diagrama de caja incluye un campo Agrupar por, la visualización se puede cambiar a gráficos, por ejemplo, un gráfico de líneas o un gráfico de columnas.

Una función esencial de un diagrama de caja es la determinación de los valores atípicos. Los valores atípicos son valores mucho más grandes o mucho más pequeños que el resto de los datos. En un diagrama de caja, las patillas representan el umbral más allá de que valores se consideran atípicos. Si no hay valores atípicos, las patillas llegarán hasta los valores mínimo y máximo del dataset. En Insights, el rango de los valores atípicos inferiores y superiores se indica en el diagrama de caja como círculos unidos por líneas discontinuas.

Cada estadística o rango del diagrama de caja se puede seleccionar haciendo clic en el gráfico.

Cuando crea un diagrama de caja, se agrega al panel de datos un dataset de resultados Resultados con los campos de entrada y las estadísticas de salida. El dataset de resultados se puede usar para buscar respuestas con un análisis no espacial mediante el botón Acción Acción.

Funcionamiento de los diagramas de caja

Un diagrama de caja está formado por los siguientes componentes:

  • Caja: el rango de datos entre el primer y el tercer cuartil. El 50 por ciento de los datos se encuentra en este rango. El rango entre el primer y el tercer cuartil también se conoce como Rango intercuartílico (IQR, por sus siglas en inglés).
  • Patilla: el rango de datos menor que el primer cuartil y mayor que el tercer cuartil. Cada patilla contiene el 25 por ciento de los datos. Normalmente, las patillas no pueden ser más de 1,5 veces el rango intercuartílico, lo que establece el umbral para los valores atípicos.
  • Máximo: el valor más alto del dataset o el valor más alto que no se encuentra fuera del umbral establecido por las patillas.
  • Tercer cuartil: el valor para el que el 75 por ciento de los datos es menor y el 25 por ciento de los datos es mayor.
  • Mediana: el número que se encuentra en el medio del dataset. La mitad de los números son mayores que la mediana y la otra mitad son menores que la mediana. La mediana también se puede denominar segundo cuartil.
  • Primer cuartil: el valor para el que el 25 por ciento de los datos es menor y el 75 por ciento de los datos es mayor.
  • Mínimo: el valor más bajo del dataset o el valor más bajo que no se encuentra fuera del umbral establecido por las patillas.
  • Valores atípicos: valores de datos que son más altos o más bajos que los límites establecidos por las patillas.

Un diagrama etiquetado de un diagrama de caja