Interactuar con estadísticas

Puede evaluar la calidad y la distribución de los valores en cada campo de sus datos mediante ingeniería de datos. Por ejemplo, el número de valores nulos en un campo puede ser una métrica de calidad de datos útil a la hora de identificar entidades con datos faltantes. Las estadísticas descriptivas, como la media, la desviación estándar y la curtosis, pueden ayudarle a comprender la distribución de los valores en los campos, así como a evaluar cómo proceder al utilizar un campo en un análisis.

La vista de Ingeniería de datos en ArcGIS Pro permite mostrar estadísticas descriptivas y métricas para los campos de interés en sus datos en un formato de tabla. Cada campo se muestra como una fila y cada estadística como una columna. Puede utilizar esta tabla para explorar los datos o corregir problemas en los mismos mediante la configuración de la simbología, la creación de gráficos y la ejecución de herramientas de geoprocesamiento que sean relevantes para cada métrica y propiedad del campo seleccionado.

Seleccionar campos y calcular estadísticas

Cuando se abre la vista de Ingeniería de datos, contiene dos paneles: uno muestra los campos de sus datos, y el otro muestra una tabla de estadísticas para los campos (una vez que han sido seleccionados y calculados).

Más información sobre la vista de Ingeniería de datos

Para empezar, haga clic en un único campo en el panel de campos, pulse Ctrl y haga clic para seleccionar campos individuales e independientes o pulse Mayús y haga clic para seleccionar varios campos. A continuación, arrastre los campos al panel de estadísticas.

Seleccione y arrastre los campos al panel de estadísticas

Como alternativa, haga clic con el botón derecho en los campos seleccionados y haga clic en Agregar a estadísticas o Agregar a estadísticas y calcular.

Nota:

También puede agregar y calcular todos los campos en una sola acción haciendo clic en el botón Agregar campos y calcular estadísticas Agregar campos y Calcular estadísticas en la barra de herramientas del Panel de campos o haciendo clic en el botón Agregar todos los campos y calcular en el centro del panel de estadísticas vacío antes de agregar campos.

Una vez agregados los campos, se muestran como filas en la tabla de estadísticas. Cada fila contiene el nombre del campo, el alias y el tipo de datos de los campos seleccionados. Además, aparecen una serie de columnas estadísticas que contendrán información adicional sobre los campos seleccionados una vez realizados los cálculos.

Para rellenar las columnas de estadísticas de los campos seleccionados, haga clic en el botón Calcular. Mientras se están calculando las estadísticas, el botón Calcular cambia a un botón Cancelar en el que puede hacer clic para cancelar el cálculo.

Botón Calcular

Las columnas de estadísticas se rellenan con información para cada campo de los datos.

Tabla de estadísticas con estadísticas y gráficos para cada campo

Si ha seleccionado registros, los resultados se corresponden con los registros seleccionados en los datos. El número de entidades seleccionadas y el número de entidades que se utilizaron para calcular las estadísticas se muestran debajo de la tabla de estadísticas.

Si tiene ediciones pendientes en la capa o tabla de entidades, las ediciones pendientes se utilizan en el cálculo.

Tipos de estadísticas

En la vista de Ingeniería de Datos, puede calcular y visualizar métricas estadísticas y de calidad de los datos de cada campo de los datos como columnas en una tabla. En la tabla, algunos nombres de encabezado de las estadísticas se han abreviado. Desplace el puntero por el encabezado para ver el nombre completo de la estadística. En la tabla de estadística, los resultados presentan 6 posiciones decimales. Puede hacer clic con el botón derecho en una celda y elegir la opción Copiar para copiar el valor sin procesar.

Nota:

En campos con tipo de datos de tiempo solamente o desfase de marca de tiempo, tenga en cuenta lo siguiente:

  • Las estadísticas de los campos con tipo de datos de desfase de marca de tiempo se calculan y muestran en UTC (desfase +00:00:00).
  • Las estadísticas de los campos con tipo de datos de hora solamente son lineales, en lugar de circulares.

Una vez calculados los valores, haga clic con el botón derecho del ratón en las celdas de estadísticas de cada campo para acceder a funcionalidades adicionales relacionadas con las estadísticas. Algunas de estas funcionalidades utilizan herramientas de geoprocesamiento que modifican los datos de entrada. Si los datos no son editables, realice una copia editable de los mismos antes de comenzar la ingeniería de datos.

EstadísticaDescripciónTipos de datos aplicablesOpciones de menú

Nulos

Un recuento y porcentaje del número total de registros que contienen valores nulos en el campo.

Para seleccionar los registros que contienen valores nulos, haga clic con el botón derecho en las celdas de esta columna.

Nota:

Si la simbología de la capa no está configurada para visualizar valores nulos, es posible que la selección no aparezca en el mapa. Configurar la simbología para mostrar los valores fuera de rango para visualizar las entidades con valores nulos.

Numérico, Texto, Fecha

Vista previa del gráfico

Una representación visual de la distribución de los valores en el campo.

Se muestran histogramas para los campos numéricos (corto, largo, entero grande, flotante, doble), gráficos de barras para los campos de categorías (texto) y gráficos de líneas para los campos de fecha (fecha, solo fecha, solo hora, desfase de marca de tiempo).

Utilice la columna de vista previa del gráfico para realizar una exploración inicial. Para crear gráficos para los campos de interés, haga clic con el botón derecho en las celdas de esta columna.

Nota:

De forma predeterminada, los histogramas y los gráficos de líneas se visualizan por defecto con 20 bins. En función de la escasez de datos, puede haber bins que no contengan datos, y los bins con valores vacíos se tratan como cero en la vista previa del gráfico. Para cambiar el nivel de detalle, haga clic con el botón derecho en la vista previa del gráfico y cree un gráfico.

Puede pasar el cursor por encima de los gráficos de barras y gráficos de líneas para visualizar una información sobre herramientas con información adicional. Para los gráficos de barras, la información sobre herramientas muestra las categorías más frecuentes y, para los gráficos de líneas, la información sobre herramientas describe la cantidad y duración de intervalos en el gráfico.

Nota:

Para las descripciones de intervalo de los campos de fecha, se considera que los meses tienen 30 días. Por ejemplo, un intervalo de 3,2 meses corresponde a 96 días.

Numérico, Texto, Fecha

Mínimo (Mín)

El valor más bajo del campo.

Para seleccionar los registros que contienen el valor mínimo, haga clic con el botón derecho en las celdas de esta columna.

Numérico, Fecha

Máximo (Máx)

El valor más alto del campo.

Para seleccionar los registros que contienen el valor máximo, haga clic con el botón derecho en las celdas de esta columna.

Numérico, Fecha

Valor medio

El valor medio de todos los valores del campo.

El valor medio es el valor promedio de una distribución, calculado como la suma de los valores dividida por el recuento total de valores en el campo. El valor medio es la medida más común de la tendencia central de una distribución.

Para calcular la fecha media de los campos de fecha, cada fecha se convierte en un número mediante el cálculo de la diferencia entre la fecha y una fecha de referencia (por ejemplo, 1900-01-01), calculada en milisegundos. La suma de todos los valores en milisegundos dividida por la cantidad de valores de fecha proporciona la fecha media, que se redondea al segundo más cercano para su visualización. En el caso de los campos con tipo de datos de fecha solamente, se presupone el uso de la media noche para fines de cálculo.

Nota:

Puede que la fecha media no tenga la misma resolución temporal (es decir, minutos, segundos, milisegundos) que los valores del campo.

Para seleccionar los registros que contienen valores por encima y por debajo del valor medio, haga clic con el botón derecho en las celdas de esta columna.

Numérico, Fecha

  • Seleccionar (seleccionar filas por encima o por debajo del valor medio)

Desviación Estándar (Desv. est.)

La desviación estándar de los valores en el campo.

La desviación estándar es una medida de la propagación de la distribución. Se calcula como la raíz cuadrada de la varianza, en la que la varianza es el promedio de la diferencia al cuadrado de cada valor con respecto al valor medio del campo.

Numérico

Mediana

El valor mediano de todos los valores del campo.

El valor mediano es el valor central de la lista ordenada de valores. Si hay un número par de valores, el valor mediano es el valor medio entre los dos valores centrales de la distribución.

Para seleccionar los registros que contienen valores por encima del valor mediano y por debajo del valor mediano, haga clic con el botón derecho en las celdas de esta columna.

Numérico, Fecha

  • Seleccionar (seleccionar filas por encima o por debajo de la mediana)

Recuento

El recuento y el porcentaje del número total de valores no nulos en el campo.

Numérico, Texto, Fecha

  • Seleccionar todo (seleccionar las filas que formaban parte de las estadísticas calculadas)

Número de valores únicos (Único)

El número de valores únicos del campo.

Numérico, Texto, Fecha

Sin acciones únicas

Modo

El modo para todos los valores del campo.

El modo es el valor más frecuente en el campo. En el caso de los empates, si el valor que ocurre con más frecuencia en un campo corresponde a varios valores, la celda muestra [Valores múltiples] y puede pasar el puntero por encima de la celda para mostrar los valores del modo y su frecuencia. Si todos los valores del campo son únicos, la celda muestra [Todos los valores únicos].

Para seleccionar los registros que contienen el modo, haga clic con el botón derecho en las celdas de esta columna.

Numérico, Texto, Fecha

  • Modo Seleccionar (seleccionar las filas con el valor de la moda, solo para campos enteros, de texto y de fecha)

Menos común

El valor menos común del campo.

En el caso de los empates, si el valor menos común de un campo corresponde a varios valores, la celda muestra [Valores múltiples] y puede pasar el puntero por encima de la celda para mostrar los valores menos comunes y su frecuencia. Si todos los valores del campo son únicos, la celda muestra [Todos los valores únicos].

Para seleccionar los registros que contienen el valor menos común, haga clic con el botón derecho en las celdas de esta columna.

Numérico, Texto, Fecha

  • Seleccionar menos común (seleccione las filas con el valor menos común, solo para campos enteros, de texto y de fecha)

Valores atípicos

El número de registros con valores atípicos en el campo.

Los valores atípicos son aquellos que superan en más de 1,5 veces el rango intercuartil por encima del tercer cuartil o por debajo del primer cuartil del campo seleccionado.

Para seleccionar los registros que contienen los valores atípicos (o todos los valores, excepto los valores atípicos), haga clic con el botón derecho en las celdas de esta columna.

Numérico

  • Seleccionar valores atípicos (seleccionar las filas de valores atípicos)
  • Seleccionar Inliers (seleccione las filas que no son valores atípicos)

Suma

La suma de todos los valores del campo.

Numérico

Sin acciones únicas

Rango

La diferencia entre el valor más pequeño y el más grande del campo.

Para los campos de fecha, el rango proporciona el intervalo de tiempo entre la fecha más temprana y la última fecha encontrada en el campo.

Nota:

Para los rangos de los campos de fecha, se considera que los meses tienen 30 días. Por ejemplo, un rango de 3,2 meses corresponde a 96 días.

Numérico, Fecha

Sin acciones únicas

Rango entre cuartiles (IQR)

El rango entre los valores del primer cuartil y el tercer cuartil del campo.

Los cuartiles dividen la lista ordenada de valores en cuatro grupos que contienen igual número de valores. El valor del primer cuartil es el límite superior del primer grupo en orden ascendente, y el tercer cuartil es el límite superior del tercer grupo.

Para seleccionar los registros que contienen valores dentro de este rango, haga clic con el botón derecho en las celdas de esta columna.

Numérico

Primer cuartil (Q1)

El valor del primer cuartil del campo. El primer cuartil es el valor del percentil 25: el límite superior de la cuarta parte más baja de los datos en orden ascendente.

Si el primer cuartil se encuentra entre dos valores, el valor se calcula interpolando entre los dos valores.

Para seleccionar los registros que contienen valores por encima y por debajo del primer cuartil, haga clic con el botón derecho en las celdas de esta columna.

Numérico, Fecha

Tercer cuartil (Q3)

El valor del tercer cuartil en el campo. El tercer cuartil es el valor del percentil 75: el límite superior de las tres cuartas partes más bajas de los datos en orden ascendente.

Si el tercer cuartil se encuentra entre dos valores, el valor se calcula interpolando entre los dos valores.

Para seleccionar los registros que contienen valores por encima y por debajo del tercer cuartil, haga clic con el botón derecho en las celdas de esta columna.

Numérico, Fecha

Coeficiente de variación (CV)

El coeficiente de variación de los valores en el campo.

El coeficiente de variación es una medida de la propagación relativa de los valores. Se calcula como la desviación estándar dividida por el valor medio del campo.

A diferencia de la desviación estándar, que siempre debe considerarse en el contexto del rango de los datos, el coeficiente de variación proporciona una forma de comparar series de datos con diferentes rangos y valores medios.

El coeficiente de variación no se puede calcular si el valor medio es igual a cero. Si el valor medio es cercano a cero y hay valores positivos y negativos en el dataset, el coeficiente de variación podría carecer de interpretación significativa.

Numérico

Sesgo

El sesgo de los valores del campo.

El sesgo mide la simetría de la distribución. El sesgo es cero (o próximo a cero) si la distribución es simétrica en ambos lados, como se observa en una distribución normal. Las distribuciones con colas más largas a la izquierda tienen asimetría negativa, y las distribuciones con colas más largas a la derecha tienen asimetría positiva.

El sesgo se calcula como el tercer momento (la media de los valores de los datos al cubo) dividido por la desviación estándar al cubo.

Numérico

Curtosis

La curtosis de los valores en el campo.

La curtosis describe el peso de las colas de una distribución en comparación con las colas de una distribución normal, lo que ayuda a identificar la frecuencia de los valores extremos. Las distribuciones con curtosis inferior a tres tienen colas más ligeras y menos valores extremos que la distribución normal, y las distribuciones con curtosis superior a tres tienen colas más pesadas y más valores extremos que la distribución normal.

La curtosis se calcula como el cuarto momento (el valor esperado de los valores de los datos llevados a la cuarta potencia) dividido por la cuarta potencia de la desviación estándar.

Numérico

Tabla de estadísticas interactiva

La tabla de estadísticas es interactiva. Haga clic con el botón derecho del ratón en las celdas y los encabezados y utilice la barra de herramientas para acceder a la funcionalidad.

Interactuar con los campos

Haga clic con el botón derecho del ratón en el encabezado de una fila para acceder a la funcionalidad aplicable al campo seleccionado, como la siguiente:

  • Crear gráfico: crear gráficos con el campo seleccionado. Se ofrecen recomendaciones en función del tipo de datos.
  • Campos: se abre la vista de campos y se establece el campo actual como campo activo en la vista.
  • Tabla de atributos: se abre la tabla de atributos y se establece el campo actual como campo activo en la tabla de atributos.
  • Limpiar, Construir, Integrar y Formatear: acceda a las herramientas de geoprocesamiento para preparar los datos. Consulte Preparar datos para obtener más información sobre estas opciones.
  • Eliminar campo: se elimina el campo y se borran sus estadísticas de la tabla de estadísticas.

Nota:

La mayoría de las operaciones de geoprocesamiento que modifican los datos de entrada no se pueden deshacer.

Opciones de funcionalidad para una fila de la tabla de estadísticas

Interactuar con las celdas

Haga clic con el botón derecho del ratón en una celda para acceder a la funcionalidad aplicable a la celda seleccionada. Todas las celdas permiten que Copiar copie el valor de la celda al Portapapeles. En el caso de las celdas de la columna Vista previa del gráfico, puede abrir el gráfico predeterminado de la celda o crear un gráfico aplicable al tipo de datos de la celda. Para el resto de columnas, están disponibles las opciones de selección contextual y herramientas de geoprocesamiento. Por ejemplo, la columna Desviación estándar permite seleccionar registros dentro de una, dos o tres desviaciones estándar del valor medio y contiene vínculos a las herramientas Estandarizar campo y Transformar campo. Para obtener una lista de todas las opciones y funciones aplicables para cada columna, consulte la tabla en la sección Tipos de estadísticas que aparece arriba.

Nota:

La selección contextual está deshabilitada en los dos casos siguientes:

  • Si se realizaron las estadísticas calculadas en una selección. Para realizar selecciones en estadísticas calculadas de una selección en una capa, puede crear una capa de selección.
  • Cuando el campo de una celda seleccionada tiene el tipo de datos flotante o doble.

Visualizar tipos de datos específicos

La barra de herramientas de la tabla de estadísticas incluye opciones para designar qué campos y columnas de estadísticas se muestran en función del tipo de datos.

Filtrar campos por tipo de datos

Por ejemplo, puede hacer clic en la opción Texto para eliminar los campos de datos de tipo texto. El botón Numérico ocultará y mostrará los campos con tipo de datos corto, largo, entero grande, flotante y doble. El botón Fecha ocultará y mostrará los campos con tipo de datos de fecha, solo fecha, solo hora y desfase de marca de tiempo.

Cuando se eliminan tipos de datos de la tabla de estadísticas, también se eliminan las columnas que son exclusivas del tipo de datos eliminado. Esto puede facilitar la revisión de la tabla en busca de elementos de interés. Por ejemplo, si se muestran solo los campos de tipo fecha, se omiten las columnas que describen las distribuciones, como sesgo y curtosis, por lo que el número de columnas se reduce a aquellas de interés únicamente.

Ordenar, ocultar, inmovilizar y reordenar columnas

De forma predeterminada, los campos se muestran en el mismo orden en que aparecen en la tabla de atributos. Las opciones de los encabezados de columna permiten ordenar, ocultar e inmovilizar las columnas de la tabla.

Opciones para la columna Número de valores nulos en la tabla de estadísticas

La ordenación permite reordenar las filas por el valor de la estadística calculada. Por ejemplo, puede ordenar los campos por la columna Valores nulos para conocer qué campos pueden tener datos no disponibles.

Nota:

Solo se puede ordenar si la tabla contiene campos con un tipo de datos único. Utilice las opciones de visualización de la barra de herramientas para filtrar a un tipo de datos específico; a continuación, ordene. El orden de clasificación se restablece al valor predeterminado cada vez que se agrega un nuevo campo a la tabla de estadísticas.

Haga clic en Inmovilizar/movilizar para mover la columna al principio de la tabla de estadísticas y bloquearla en su lugar para que la columna se muestre cuando se desplace la tabla horizontalmente. Para reordenar las columnas, arrastre el encabezado de una columna a la nueva ubicación.

Para ocultar columnas, haga clic en Ocultar columna. Esto elimina la columna de la vista. Para mostrar todas las columnas ocultas, haga clic en Mostrar todas las columnas.

Opción Mostrar todas las columnas

Para quitar todos los campos y sus estadísticas de la tabla de estadísticas, haga clic en Quitar todos los campos. Si se vuelve a agregar un campo eliminado a la tabla de estadísticas, tendrá que volver a hacer clic en el botón Calcular para ver sus estadísticas.

Exportar estadísticas

Para utilizar las estadísticas en otras partes de ArcGIS Pro, conserve las estadísticas como una tabla independiente. Haga clic en Exportar estadísticas como tabla para abrir la herramienta Estadísticas de campo a tabla. Esta opción permite exportar las estadísticas como una única tabla o como tablas independientes para cada tipo de datos. Esta herramienta no admite estadísticas correspondientes a campos de tipo de datos de entero grande, solo fecha, solo hora y desfase de marca de tiempo.

Referencias