Nota:
La ingeniería de datos está disponible en Insights desktop. Todos los usuarios de Insights in ArcGIS Online y Insights in ArcGIS Enterprise tienen acceso a Insights desktop. Para obtener más información, consulte Descripción general de ArcGIS Insights.
La ingeniería de datos está actualmente en Vista previa.
Las herramientas del menú Opciones de importación se aplican a los datasets cuando se agregan a un libro de trabajo de datos, pero no se agregan al modelo de datos.
Herramientas de importación
Las siguientes herramientas están disponibles al importar un dataset en un libro de trabajo de datos:
Herramienta | Descripción |
---|---|
Aplique un filtro avanzado al dataset y seleccione campos para incluirlos en el dataset de muestra. | |
Cortar espacios vacíos | Elimine los espacios vacíos del principio y el final de los valores de la cadena de caracteres. Esta herramienta está habilitada de forma predeterminada. |
Elija cómo se crea la muestra del dataset. Esta herramienta está disponible para datasets con más de 250.000 registros. |
Utilizar las opciones de importación
Siga estos pasos para aplicar las herramientas de importación a un dataset:
- Abra la ventana Agregar a página con una de las siguientes opciones:
- Cree un libro de trabajo de datos. La ventana Agregar a página aparece al crear el libro de trabajo de datos.
- Haga clic en el botón Agregar a página situado sobre el panel de datos de un libro de trabajo de datos existente.
- Seleccione un dataset para agregarlo al libro de trabajo de datos.
- Haga clic en el botón Opciones de importación para acceder a las siguientes herramientas:
- Elija Filtrar dataset para aplicar un filtro avanzado y seleccione los campos que desee incluir en el dataset de muestra.
- Elija si desea recortar espacios vacíos del principio y el final de las cadenas de caracteres (habilitado de forma predeterminada).
- Si el dataset tiene más de 250.000 registros, elija si desea utilizar el método de muestreo Aleatorio (predeterminado) o Fijo.
- Haga clic en Agregar.
Método de muestreo
Existen dos métodos para crear datos muestreados: Aleatorio y Fijo.
Aleatorio
El método de muestreo Aleatorio selecciona 250.000 registros aleatoriamente desde el dataset. Es probable que este método cree una muestra representativa de valores únicos y rangos de números. Sin embargo, es posible que no se seleccionen valores con relativamente pocas ocurrencias en la muestra. Por ejemplo, es posible que no se seleccione un error de escritura en una columna de cadena de caracteres que solo aparezca una vez en la muestra aleatoria, por lo que no sabrá corregir el error como parte del flujo de trabajo de ingeniería de datos.
El método Aleatorio es el método de muestreo preferido para la mayoría de los datasets.
Nota:
Los conectores de base de datos que no se admiten desde el primer momento deben tener archivos de configuración actualizados para admitir el muestreo aleatorio. Si no utiliza los archivos de configuración más recientes para un conector, debe eliminar el tipo de conector y volver a agregar el conector con los archivos más recientes.
Las conexiones solo de datos a ArcGIS Enterprise no admiten muestras aleatorias si Insights 2022.2 o alguna versión superior no está instalado en la organización.
Es posible que el muestreo aleatorio no sea compatible con datos de las pestañas Living Atlas y ArcGIS público.
Corregido
El método Fijo selecciona los registros en el orden en que tienen lugar en el dataset. El tamaño de muestra predeterminado es de 250.000 registros, pero puede aumentar o disminuir el tamaño de muestra al importar el dataset.
Utilice el método Fijo cuando desee aumentar el tamaño de muestra o cuando tenga un dataset que proporcionará una muestra representativa utilizando los registros en el orden en que tienen lugar.
No utilice el método Fijo para los datasets que se ordenan de manera que afecte a los valores que existen en la muestra. Por ejemplo, un dataset tiene datos climatológicos de varios años de un país, pero los primeros 250.000 registros solo incluyen los primeros dos meses de datos. Por lo tanto, los datos no serán representativos de las fechas, las temperaturas, las cantidades de precipitaciones y otras condiciones meteorológicas registradas en el dataset completo.