Los diagramas de caja proporcionan un resumen visual rápido de la variabilidad de los valores de un dataset. Muestran la mediana, los cuartiles superior e inferior, los valores mínimo y máximo y los valores atípicos del dataset. Los valores atípicos pueden revelar errores o casos inusuales en los datos. Un diagrama de caja se crea usando varios campos de índice/ratio en el eje Y.
Los diagramas de caja pueden responder a preguntas sobre los datos, por ejemplo: ¿cómo se distribuyen los datos? ¿Hay algún valor atípico en el dataset? ¿Cuáles son las variaciones en la extensión de varias series en el dataset?
Ejemplos
Un investigador de mercado está estudiando el rendimiento de una cadena de venta minorista. Se puede utilizar un diagrama de caja de los ingresos anuales de cada tienda para determinar la distribución de las ventas, incluidos los valores mínimo, máximo y la mediana.
El diagrama de caja anterior muestra que la mediana del importe de venta es 1.111.378 $ (se muestra al pasar el cursor por el gráfico o usando el botón Voltear tarjeta para invertir la tarjeta). La distribución parece bastante uniforme, con la mediana situada en medio de la caja y las patillas de un tamaño similar. También existen valores atípicos bajos y altos, lo que le indica a la analista qué tiendas presentan un rendimiento demasiado alto o demasiado bajo.
Para conocer más a fondo los datos, la analista decide crear diagramas de caja individuales para cada región en la que están ubicadas las tiendas. Esto se hace cambiando el campo Agrupar por a Región. El resultado son cuatro diagramas de caja individuales que se pueden comparar para averiguar información sobre cada región.
Basándose en los diagramas de caja, la analista puede saber que existen algunas diferencias entre regiones; las medianas son uniformes en los cuatro diagramas de caja, las cajas presentan tamaños similares y todas las regiones tienen valores atípicos tanto en el extremo mínimo como en el máximo. Sin embargo, las patillas de las regiones Norte y Central son ligeramente más pequeñas que las de las regiones Zona de la bahía y Sur, lo que implica que dichas regiones tienen un rendimiento más uniforme que otras. En las regiones Zona de la bahía y Sur, las patillas son un poco más largas, lo que implica que dichas regiones tienen tiendas que registran un rendimiento deficiente, además de tiendas con un buen rendimiento. Puede que la analista desee centrar su análisis en esas dos regiones para averiguar por qué existen tales variaciones en el rendimiento.
Crear un diagrama de caja
Para crear un diagrama de caja, siga estos pasos:
- Seleccione una de las siguientes opciones de datos:
- Un campo numérico o de índice/ratio .
- Un campo numérico o de índice/ratio más un campo de cadena de caracteres .
Nota:
Puede buscar campos en la barra de búsqueda del panel de datos.
- Cree un diagrama de caja siguiendo estos pasos:
- Arrastre los campos seleccionados a una nueva tarjeta.
- Pase el puntero por la zona de colocación del Gráfico.
- Suelte los campos seleccionados en el Diagrama de caja.
Sugerencia:
También puede crear gráficos usando el menú Gráfico situado encima del panel de datos o el botón Tipo de visualización de una tarjeta existente. Para el menú Gráfico, solo se habilitarán los gráficos compatibles con su selección de datos. Para el menú Tipo de visualización, solo se mostrarán visualizaciones compatibles (incluidos mapas, gráficos o tablas).
Nota:
Los diagramas de caja creados a partir de datasets de bases de datos deben tener al menos cinco registros. Los diagramas de caja con menos de cinco registros es más probable que se den cuando se agrupa un diagrama de caja usando un campo de cadena de caracteres o se aplica un filtro a un dataset o una tarjeta. Los datasets de base de datos están disponibles a través de las conexiones de base de datos de Insights in ArcGIS Enterprise y Insights desktop.
Notas de uso
El botón Opciones de capa abre el panel Opciones de capa. El panel Opciones de capa contiene las funciones siguientes:
- La pestaña Leyenda está disponible cuando se aplica un grupo por campo al eje x del gráfico. Si se usa un grupo por campo, se pueden crear diagramas de caja en paralelo, de manera que cada diagrama represente la extensión de los datos de cada categoría. El botón de leyenda emergente permite mostrar la leyenda como una tarjeta separada en la página. Puede utilizar la leyenda para realizar selecciones en el gráfico. Para cambiar el color asociado a un valor, haga clic en el símbolo y elija un color de la paleta o introduzca un valor hexadecimal.
- En la pestaña Apariencia se cambia el color del símbolo del gráfico (símbolo único solamente).
Use el botón Tipo de visualización para cambiar directamente entre un diagrama de caja y otras visualizaciones, por ejemplo, un mapa de símbolos graduados, una tabla de resumen o un histograma. Si el diagrama de caja incluye un campo Agrupar por, la visualización se puede cambiar a gráficos, por ejemplo, un gráfico de líneas o un gráfico de columnas.
Use el botón Voltear tarjeta para ver el reverso de la tarjeta. La pestaña Información de tarjeta proporciona información sobre los datos de la tarjeta y la pestaña Exportar datos permite a los usuarios exportar los datos desde la tarjeta.
Una función esencial de un diagrama de caja es la determinación de los valores atípicos. Los valores atípicos son valores mucho más grandes o mucho más pequeños que el resto de los datos. En un diagrama de caja, las patillas representan el umbral más allá de que valores se consideran atípicos. Si no hay valores atípicos, las patillas llegarán hasta los valores mínimo y máximo del dataset. En Insights, el rango de los valores atípicos inferiores y superiores se indica en el diagrama de caja como círculos unidos por líneas discontinuas.
Cada estadística o rango del diagrama de caja se puede seleccionar haciendo clic en el gráfico.
Cuando crea un diagrama de caja, se agrega al panel de datos un dataset de resultados con los campos de entrada y las estadísticas de salida. El dataset de resultados se puede usar para buscar respuestas con un análisis no espacial mediante el botón Acción .
Funcionamiento de los diagramas de caja
Un diagrama de caja está formado por los siguientes componentes:
Etiqueta | Componente | Descripción |
---|---|---|
Patilla | El rango de datos menor que el primer cuartil y mayor que el tercer cuartil. Cada patilla contiene el 25 por ciento de los datos. Normalmente, las patillas no pueden ser más de 1,5 veces el rango intercuartílico, lo que establece el umbral para los valores atípicos. | |
Caja | El rango de datos entre el primer y el tercer cuartil. El 50 por ciento de los datos se encuentra en este rango. El rango entre el primer y el tercer cuartil también se conoce como Rango intercuartílico (IQR, por sus siglas en inglés). | |
Máximo | El valor más alto del dataset o el valor más alto que no se encuentra fuera del umbral establecido por las patillas. | |
Tercer cuartil | El valor para el que el 75 por ciento de los datos es menor y el 25 por ciento de los datos es mayor. | |
Mediana | El número que se encuentra en el medio del dataset. La mitad de los números son mayores que la mediana y la otra mitad son menores que la mediana. La mediana también se puede denominar segundo cuartil. | |
Primer cuartil | El valor para el que el 25 por ciento de los datos es menor y el 75 por ciento de los datos es mayor. | |
Mínimo | El valor más bajo del dataset o el valor más bajo que no se encuentra fuera del umbral establecido por las patillas. | |
Valores atípicos | Valores de datos que son más altos o más bajos que los límites establecidos por las patillas. |