Los diagramas de caja proporcionan un resumen visual rápido de la variabilidad de los valores de un dataset. Muestran la mediana, los cuartiles superior e inferior, los valores mínimo y máximo y los valores atípicos del dataset. Los valores atípicos pueden revelar errores o casos inusuales en los datos. Un diagrama de caja se crea usando varios campos de índice/ratio en el eje Y.
Los diagramas de caja pueden responder a preguntas sobre los datos, por ejemplo: ¿cómo se distribuyen los datos? ¿Hay algún valor atípico en el dataset? ¿Cuáles son las variaciones en la extensión de varias series en el dataset?
Ejemplos
Un investigador de mercado está estudiando el rendimiento de una cadena de venta minorista. Se puede utilizar un diagrama de caja de los ingresos anuales de cada tienda para determinar la distribución de las ventas, incluidos los valores mínimo, máximo y la mediana.
El diagrama de caja anterior muestra que la mediana del importe de venta es 1.111.378 $ (se muestra al pasar el cursor por el gráfico o usando el botón Voltear tarjeta para invertir la tarjeta). La distribución parece bastante uniforme, con la mediana situada en medio de la caja y las patillas de un tamaño similar. También existen valores atípicos bajos y altos, lo que le indica a la analista qué tiendas presentan un rendimiento demasiado alto o demasiado bajo.
Más información sobre los componentes de un diagrama de caja
Para conocer más a fondo los datos, la analista decide crear diagramas de caja individuales para cada región en la que están ubicadas las tiendas. Esto se hace cambiando el campo Agrupar por a Región. El resultado son cuatro diagramas de caja individuales que se pueden comparar para averiguar información sobre cada región.
Basándose en los diagramas de caja, la analista puede saber que existen algunas diferencias entre regiones; las medianas son uniformes en los cuatro diagramas de caja, las cajas presentan tamaños similares y todas las regiones tienen valores atípicos tanto en el extremo mínimo como en el máximo. Sin embargo, las patillas de las regiones Norte y Central son ligeramente más pequeñas que las de las regiones Zona de la bahía y Sur, lo que implica que dichas regiones tienen un rendimiento más uniforme que otras. En las regiones Zona de la bahía y Sur, las patillas son un poco más largas, lo que implica que dichas regiones tienen tiendas que registran un rendimiento deficiente, además de tiendas con un buen rendimiento. Puede que la analista desee centrar su análisis en esas dos regiones para determinar por qué existen tales variaciones en el rendimiento.
Crear un diagrama de caja
Para crear un diagrama de caja, siga estos pasos:
- Seleccione una de las siguientes combinaciones de datos:
- Un campo numérico o de índice/ratio .
- Un campo numérico o de índice/ratio más un campo de cadena de caracteres .
Nota:
Puede buscar campos en la barra de búsqueda del panel de datos.
- Cree el gráfico siguiendo estos pasos:
- Arrastre los campos seleccionados a una nueva tarjeta.
- Pase el puntero por la zona de colocación del Gráfico.
- Suelte los campos seleccionados en el Diagrama de caja.
Sugerencia:
También puede crear gráficos usando el menú Gráfico situado encima del panel de datos o el botón Tipo de visualización de una tarjeta existente. Para el menú Gráfico, solo se habilitarán los gráficos compatibles con la selección de datos. Para el menú Tipo de visualización, solo se mostrarán visualizaciones compatibles (incluidos mapas, gráficos o tablas).
Nota:
Los diagramas de caja creados a partir de datasets de bases de datos deben tener al menos cinco registros. Los diagramas de caja con menos de cinco registros es más probable que se den cuando se agrupa un diagrama de caja usando un campo de cadena de caracteres o se aplica un filtro a un dataset o una tarjeta. Los datasets de base de datos están disponibles a través de las conexiones de base de datos de Insights in ArcGIS Enterprise y Insights desktop.
Notas de uso
Esta visualización crea un dataset de resultados en el panel de datos, que incluye los campos utilizados para crear el gráfico. El dataset resultante puede utilizarse para crear visualizaciones adicionales, renombrar los campos en los ejes del gráfico o en las ventanas emergentes, o aplicar filtros al gráfico.
Una función esencial de un diagrama de caja es la determinación de los valores atípicos. Los valores atípicos son valores mucho más grandes o mucho más pequeños que el resto de los datos. En un diagrama de caja, las patillas representan el umbral más allá de que valores se consideran atípicos. Si no hay valores atípicos, las patillas llegarán hasta los valores mínimo y máximo del dataset. En Insights, el rango de los valores atípicos inferiores y superiores se indica en el diagrama de caja como círculos unidos por líneas discontinuas.
Si se usa un grupo por campo, se pueden crear diagramas de caja en paralelo, de manera que cada diagrama represente la extensión de los datos de cada categoría.
Cada estadística o rango del diagrama de caja se puede seleccionar haciendo clic en el gráfico.
Utilice el botón Opciones de capa para abrir el panel Opciones de capa y realice lo siguiente para actualizar las opciones de configuración:
Utilice la pestaña Leyenda para ver los símbolos del gráfico. El botón de leyenda emergente permite mostrar la leyenda como una tarjeta separada en la página. Puede utilizar la leyenda para realizar selecciones en el gráfico (disponible para símbolos únicos).
Para cambiar el color asociado a un valor, haga clic en el símbolo y elija un color de la paleta o proporcione un valor hexadecimal. Cambiar el símbolo de la pestaña Leyenda solo está disponible para símbolos únicos.- En la pestaña Apariencia se cambia el color del símbolo del gráfico (símbolo único solamente).
Utilice el botón Filtro de tarjetas para eliminar los datos no deseados de la tarjeta. Los filtros se pueden aplicar a todos los campos de cadena de caracteres, numéricos, de índice/ratio y de fecha/hora. Los filtros de tarjeta no afectan a otras tarjetas que usan el mismo dataset.
Utilice el botón Herramientas de selección para seleccionar entidades del gráfico mediante la herramienta de selección simple, o invertir la selección.
Use el botón Tipo de visualización para cambiar directamente entre un diagrama de caja y otras visualizaciones, por ejemplo, un mapa de símbolos graduados, una tabla de resumen o un histograma. Si el diagrama de caja incluye un campo Agrupar por, la visualización se puede cambiar a gráficos, por ejemplo, un gráfico de líneas o un gráfico de columnas.
Utilice el botón Maximizar para ampliar la tarjeta. El resto de tarjetas de la pantalla se reducirán a vistas en miniatura. La tarjeta puede volver a su tamaño anterior con el botón Restaurar .
Utilice el botón Habilitar filtros cruzados para permitir la creación de filtros en la tarjeta mediante las selecciones de otras tarjetas. Los filtros cruzados se pueden eliminar con el botón Deshabilitar filtros cruzados.
Use el botón Voltear tarjeta para ver el reverso de la tarjeta. La pestaña Información de tarjeta proporciona información sobre los datos de la tarjeta y la pestaña Exportar datos permite a los usuarios exportar los datos desde la tarjeta.
Utilice el botón Opciones de tarjeta para acceder a las siguientes opciones:
- Botón Apariencia : modifica el color de fondo, el color de primer plano, así como el borde de la tarjeta.
- Botón Editar etiquetas : crea etiquetas personalizadas para los ejes del gráfico. Para editar las etiquetas, haga clic en el botón Editar etiquetas y haga clic en el eje para que pueda modificarse.
- Botón Ordenar : mueve la tarjeta hacia delante o hacia atrás en relación con otras tarjetas de la página.
- Botón Eliminar : elimina la tarjeta de la página. Si no quería eliminar la tarjeta, puede recuperarla mediante el botón Deshacer .
Funcionamiento de los diagramas de caja
Un diagrama de caja está formado por los siguientes componentes:
Etiqueta | Componente | Descripción |
---|---|---|
Patilla | El rango de datos menor que el primer cuartil y mayor que el tercer cuartil. Cada patilla contiene el 25 por ciento de los datos. Normalmente, las patillas no pueden ser más de 1,5 veces el rango intercuartílico, lo que establece el umbral para los valores atípicos. | |
Caja | El rango de datos entre el primer y el tercer cuartil. El 50 por ciento de los datos se encuentra en este rango. El rango entre el primer y el tercer cuartil también se conoce como Rango intercuartílico (IQR, por sus siglas en inglés). | |
Máximo | El valor más alto del dataset o el valor más alto que no se encuentra fuera del umbral establecido por las patillas. | |
Tercer cuartil | El valor para el que el 75 por ciento de los datos es menor y el 25 por ciento de los datos es mayor. | |
Mediana | El número que se encuentra en el medio del dataset. La mitad de los números son mayores que la mediana y la otra mitad son menores que la mediana. La mediana también se puede denominar segundo cuartil. | |
Primer cuartil | El valor para el que el 25 por ciento de los datos es menor y el 75 por ciento de los datos es mayor. | |
Mínimo | El valor más bajo del dataset o el valor más bajo que no se encuentra fuera del umbral establecido por las patillas. | |
Valores atípicos | Valores de datos que son más altos o más bajos que los límites establecidos por las patillas. |
Recursos
Utilice estos recursos para obtener más información sobre los gráficos: