Los histogramas agregan datos numéricos en grupos de intervalos regulares denominados bins y muestran la frecuencia de los valores dentro de cada bin. Un histograma se crea usando un campo de número o de índice/ratio.
Los histogramas pueden responder a preguntas sobre los datos, por ejemplo: ¿cuál es la distribución de los valores numéricos y su frecuencia de aparición en un dataset? ¿Existen valores atípicos?
Ejemplo
Una organización sanitaria no gubernamental está estudiando los índices de obesidad entre adolescentes de los Estados Unidos. Un histograma de frecuencia de obesidad de jóvenes en los distintos estados se puede utilizar para determinar la distribución de los índices de obesidad, incluidas las frecuencias más y menos comunes y el rango global.
El histograma anterior muestra una distribución normal e indica que los índices que se dan con más frecuencia están en el rango de porcentajes comprendido entre 10 y 14.
Aumentar o disminuir el número de bins puede tener un efecto en cómo analiza sus datos. Aunque los datos no cambian, su apariencia puede hacerlo. Es importante elegir un número adecuado de bins para los datos de forma que los patrones de los mismos no se interpreten mal. Muy pocos bins pueden ocultar patrones importantes y demasiados bins pueden hacer que fluctuaciones pequeñas pero esperadas en los datos parezcan importantes. La siguiente figura es un ejemplo de un número de bins apropiado para los datos. Cada bin contiene un rango de aproximadamente un 1% y los datos se pueden examinar a una escala más precisa para ver patrones que no son visibles cuando se utilizan seis bins. En este caso, el patrón que emerge es una distribución normal en torno al valor medio con un ligeros sesgo, pero probablemente no significativo, hacia la izquierda.
Crear un histograma
Para crear un histograma, siga estos pasos:
- Seleccione un campo numérico o de índice/ratio .
Sugerencia:
Puede buscar campos en la barra de búsqueda del panel de datos.
- Cree un histograma siguiendo estos pasos:
- Arrastre los campos seleccionados a una nueva tarjeta.
- Pase el puntero por la zona de colocación del Gráfico.
- Suelte los campos seleccionados en el Histograma.
Sugerencia:
También puede crear gráficos usando el menú Gráfico situado encima del panel de datos o el botón Tipo de visualización de una tarjeta existente. Para el menú Gráfico, solo se habilitarán los gráficos compatibles con su selección de datos. Para el menú Tipo de visualización, solo se mostrarán visualizaciones compatibles (incluidos mapas, gráficos o tablas).
También se pueden crear histogramas usando Ver histograma, al cual se accede desde el botón Acción en Buscar respuestas > ¿Cómo está distribuido?
Notas de uso
Los histogramas se simbolizan mediante valores únicos. Puede usar el botón Opciones de capa para cambiar el color del símbolo y el color del contorno, que se aplicará a todos los bins.
Cuando se crea un histograma, Insights calcula automáticamente un número apropiado de bins para mostrar los datos. Puede cambiar el número de bins usando el control deslizante del eje x o haciendo clic en el número de bins e introduciendo un nuevo número.
Nota:
Si el número de bins elegido no se divide uniformemente entre el rango de datos, los bins se calcularán usando valores decimales. Los histogramas muestran enteros redondeados como etiquetas de bins, en lugar de decimales. Los enteros redondeados solo se utilizan para la visualización, y los valores decimales se utilizan para todos los cálculos. En un caso en el que un bin incluya valores de datos cerca del límite superior o inferior y la etiqueta se redondee, los valores inicial y final del bin pueden parecer incorrectos porque las etiquetas muestran valores redondeados en lugar de decimales.
Use el botón Estadística de gráfico para visualizar el valor medio, la mediana y la distribución normal de los datos. Una curva de distribución normal representa la distribución esperada de una muestra aleatoria de datos continuos en la que la frecuencia más alta de los valores está centrada en torno al valor medio y la frecuencia de los valores decrece a medida que los valores aumentan o se alejan del valor medio. Una curva de distribución normal resulta útil para determinar si los datos tienen un sesgo (por ejemplo, los datos tienen una frecuencia mayor de valores bajos) o valores atípicos.
Use el botón Tipo de visualización para cambiar directamente entre un histograma y un mapa de símbolos graduados o una tabla de resumen.
Use el botón Voltear tarjeta para ver el reverso de la tarjeta. La pestaña Información de tarjeta proporciona información sobre los datos de la tarjeta y la pestaña Exportar datos permite a los usuarios exportar los datos desde la tarjeta.
El reverso de un histograma muestra los siguientes valores calculados: valor medio, mediana, desviación estándar, sesgo y curtosis (simplificada). El sesgo y la curtosis se describen en la siguiente tabla:
Estadística | Descripción |
---|---|
Sesgo | El sesgo determina si la distribución de datos es simétrica. La medición de sesgo determina si la mayor parte de los valores de distribución se encuentran a la izquierda o a la derecha del valor medio. El sesgo de una distribución normal es cero, lo que indica que la cantidad de datos es la misma en los dos lados del valor medio. Los valores de sesgo pueden ser cero, negativo o positivo de la siguiente forma:
|
Curtosis | La curtosis describe la forma de la distribución de frecuencia y da una medida de la probabilidad de que la distribución genere valores atípicos. Las distribuciones con colas relativamente pesadas se denominan leptocúrticas y tienen una curtosis mayor que cero. Las distribuciones con colas relativamente ligeras se denominan platicúrticas y tienen una curtosis menor que cero. La curtosis de una distribución normal es igual a tres o, cuando se usa una curtosis simplificada, la curtosis de una distribución normal es cero (esto se determina usando la misma fórmula que en el caso de la curtosis, menos 3). Los valores de la curtosis simplificada pueden ser cero, negativa o positiva de la siguiente forma:
|