Usar ArcGIS Data Pipelines—ArcGIS Data Pipelines

Las canalizaciones de datos que crea en la aplicación ArcGIS Data Pipelines se almacenan como elementos de su contenido. Utilizará el editor Data Pipelines para crear y editar canalizaciones de datos. Las siguientes secciones describen el editor de canalizaciones de datos y explican cómo crear y ejecutar una canalización de datos en el editor.

Elementos de la canalización de datos

A continuación se describen los elementos de una canalización de datos:

Entradas
- Una entrada se utiliza para cargar datos en la canalización de datos para su procesamiento posterior. Hay muchos tipos de fuentes de entrada disponibles. Para más información sobre fuentes y tipos de fuentes, consulte Configuración del dataset.
- Puede haber varias fuentes de datos en una misma canalización de datos. Se requiere al menos una en un flujo de trabajo de canalización de datos.
Herramientas
- Las herramientas procesan datos que se han cargado desde datasets de entrada.
- Puede haber varias herramientas en una misma canalización de datos.
- Las herramientas se pueden conectar entre sí cuando la salida de una herramienta representa la entrada de la siguiente herramienta.
- Para saber más sobre las herramientas disponibles y cómo utilizarlas, consulte Procesamiento de datos.
Salidas
- Una salida define lo que se hará con los resultados de la canalización de datos.
- Puede enviar los resultados de la canalización de datos a una nueva capa de entidades, sustituir los datos de una capa de entidades existente o agregar y actualizar los datos existentes en una capa de entidades.
- Puede haber varias salidas en una misma canalización de datos.
- Puede configurar varias salidas para un único resultado de la herramienta o dataset de entrada. Se requiere al menos una para ejecutar una canalización de datos.
- Para obtener más información sobre la escritura de resultados, consulte Capa de entidades.

Flujo de trabajo de la canalización de datos

El flujo de trabajo de la canalización de datos se compone de los elementos descritos anteriormente: conectarse a los datos existentes, realizar ingeniería de datos y escribir los datos recién preparados. Cuando se ejecuta una canalización de datos, se generan una o varias salidas. Todos los resultados de salida están disponibles en el contenido.

Conectar a los datos

El primer paso en la creación de una canalización de datos es conectarse a los datos. En la barra de herramientas del editor, en Entradas, elija el tipo de fuente al que desea conectarse. Por ejemplo, elija Capa de entidades y navegue hasta la capa, o elija Amazon S3 y navegue hasta el elemento del almacén de datos que representa el bucket y la carpeta que contiene el dataset. Para obtener más información sobre la conexión a los datos y cómo optimizar el rendimiento de la lectura, consulte Configuración del dataset.

Realizar procesamiento de datos

El segundo paso consiste en procesar los datos de entrada. En la barra de herramientas del editor, en Herramientas, elija el proceso que desea completar en el dataset. Por ejemplo, para calcular ubicaciones para datos CSV y filtrar las ubicaciones para un área de interés específica, puede utilizar las herramientas Crear geometría y Filtrar por extensión.

Para especificar el dataset que se utilizará como entrada para una herramienta, realice una de las siguientes acciones:

Dibuje una línea arrastrando el puntero desde el conector de un elemento al otro.
Utilice el parámetro dataset de entrada para identificar el dataset de entrada.

El procesamiento de los datos es opcional. Después de conectarse al dataset, puede escribirlo como una capa de entidades sin procesamiento.

Para mejorar el rendimiento del procesamiento de la canalización de datos, puede limitar la cantidad de datos con los que trabaja utilizando una de las siguientes herramientas o una combinación de ellas:

Seleccionar campos: conserva solo los campos de interés. Por ejemplo, tiene un dataset censal con campos para los años 2000 y 2010, pero solo le interesa el año 2010. Seleccione solamente los campos que representan valores de 2010.
Filtrar por atributo: conserva un subconjunto de registros que contienen determinados valores de atributo. Por ejemplo, filtre un dataset de terremotos de aquellos de una magnitud superior a 5,5.
Filtrar por extensión: conserva un subconjunto de registros dentro de una extensión espacial determinada. Por ejemplo, filtre un dataset de zonas de riesgo de inundación de Estados Unidos en la extensión de otro dataset que represente un límite estatal.

Vista previa de los elementos de la canalización de datos

Utilice la vista previa para investigar los datos en cualquier paso del flujo de trabajo. La vista previa incluye los siguientes métodos para inspeccionar datos:

Vista previa de tabla: muestra una representación de los datos en forma de tabla.
Vista previa del mapa: muestra las ubicaciones del dataset en un mapa. En la vista previa del mapa, puede desplazarse, hacer zoom e inspeccionar los atributos.
Esquema: muestra el esquema del dataset.
Mensajes: revise los mensajes devueltos por la acción de vista previa.

Las vistas previas muestran hasta 8000 registros de datos.

Al previsualizar los campos de fecha y hora, los valores se muestran en la zona de tiempo del navegador. Cuando los valores se escriben en una capa de entidades, se almacenan en UTC.

Las vistas previas de datasets con geometrías complejas pueden consumir una gran cantidad de memoria disponible. Si se superan los umbrales de memoria, las vistas previas de mapas pueden no representarse o el estado puede cambiar a reconexión mientras se recupera. Para mejorar el rendimiento de la vista previa, puede hacer lo siguiente:

Para cualquier tipo de geometría, plantéese agregar un filtro al dataset mediante el uso de la herramienta Filtrar por atributo o la herramienta Filtrar por extensión.
Para geometrías de polígono, considere generalizar las geometrías con la herramienta Simplificar geometría.

Para escribir el dataset completo en una capa de entidades, asegúrese de eliminar la herramienta de filtro o simplificación antes de ejecutar la canalización de datos.

Ejecutar una canalización de datos

Utilice el botón Ejectuar de la barra de acciones del lienzo para devolver los procesos configurados. Para ejecutar una canalización de datos, debe configurarse al menos un elemento de salida de la capa de entidades. Se puede acceder a los resultados y mensajes de ejecución desde la consola de detalles de la última ejecución haciendo clic en el botón Detalles de ejecución . Puede hacer clic en un resultado para abrir la página de elementos.

Para ejecutar una canalización de datos según un programa automatizado, puede crear una tarea. Para obtener más información sobre la creación de tareas de canalización de datos programadas, consulte Programar una tarea de canalización de datos.

Agregar notas a una canalización de datos

Agregue notas para documentar su flujo de trabajo. Puede agregar una nota a un elemento específico del lienzo o al flujo de datos en general.

Para agregar una nota a un elemento específico, seleccione el elemento y haga clic en el botón Notas Notas de la barra de acciones del elemento. Una vez que se haya agregado una nota de elemento, puede volver a hacer clic en el botón Notas para ver o editar la nota. Para ver todas las notas del elemento, haga clic en el botón Notas de la barra de herramientas del editor y seleccione Notas de elemento. Aquí, puede eliminar una nota de elemento o hacer clic en una nota para abrirla en el lienzo, donde puede verla o editarla. Solo puede tener una nota por elemento. Las notas de elemento están limitadas a 16.000 caracteres.

Para agregar una nota a la canalización de datos en general, haga clic en el botón Notas Notas en la barra de herramientas del editor y seleccione Notas generales. Aquí puede crear, ver, editar o eliminar la nota general. Solo puede tener una nota general por canalización de datos. Las notas generales están limitadas a 16.000 caracteres.

Al copiar un elemento, las notas no se copian con él.

Al guardar una canalización de datos existente con notas como un elemento nuevo, las notas se guardan con el nuevo elemento.

¿Algún comentario sobre este tema?