Skip To Content

Usar ArcGIS Data Pipelines

Las canalizaciones de datos que crea en la aplicación ArcGIS Data Pipelines se almacenan como elementos de su contenido. Utilizará el editor Data Pipelines para crear y editar canalizaciones de datos. Las siguientes secciones describen los elementos de la canalización de datos y explican cómo crear y ejecutar una canalización de datos en el editor.

Elementos de la canalización de datos

A continuación se describen los tres elementos de una canalización de datos:

  • Entradas
    • Una entrada se utiliza para cargar datos en la canalización de datos para su procesamiento posterior. Hay muchos tipos de fuentes de entrada disponibles. Para más información sobre fuentes y tipos de fuentes, consulte Configuración del dataset.
    • Puede haber varias fuentes de datos en una misma canalización de datos. Se requiere al menos una en un flujo de trabajo de canalización de datos.
  • Herramientas
    • Las herramientas procesan datos que se han cargado desde datasets de entrada.
    • Puede haber varias herramientas en una misma canalización de datos.
    • Las herramientas se pueden conectar entre sí cuando la salida de una herramienta representa la entrada de la siguiente herramienta.
    • Para saber más sobre las herramientas disponibles y cómo utilizarlas, consulte Procesamiento de datos.
  • Salidas
    • Una salida define lo que se hará con los resultados de la canalización de datos.
    • Puede enviar los resultados de la canalización de datos a una nueva capa de entidades, sustituir los datos de una capa de entidades existente o agregar y actualizar los datos existentes en una capa de entidades.
    • Puede haber varias salidas en una misma canalización de datos.
    • Puede configurar varias salidas para un único resultado de la herramienta o dataset de entrada. Se requiere al menos una para ejecutar una canalización de datos.
    • Para obtener más información sobre la escritura de resultados, consulte Capa de entidades.

Flujo de trabajo de la canalización de datos

El flujo de trabajo de la canalización de datos se compone de los tres elementos descritos anteriormente: conectarse a los datos existentes, realizar ingeniería de datos y escribir los datos recién preparados. Cuando se ejecuta una canalización de datos, se generan una o varias salidas. Todos los resultados de salida están disponibles en el contenido de su portal.

Conectar a los datos

El primer paso en la creación de una canalización de datos es conectarse a los datos. En la barra de herramientas del editor, en Entradas, elija el tipo de fuente al que desea conectarse. Por ejemplo, elija Capa de entidades y navegue hasta la capa, o elija Amazon S3 y navegue hasta el elemento del almacén de datos que representa el bucket y la carpeta que contiene el dataset. Para obtener más información sobre la conexión a los datos y cómo optimizar el rendimiento de la lectura, consulte Configuración del dataset.

Realizar procesamiento de datos

El segundo paso consiste en procesar los datos de entrada. En la barra de herramientas del editor, en Herramientas, elija el proceso que desea completar en el dataset. Por ejemplo, para calcular ubicaciones para datos CSV y filtrar las ubicaciones para un área de interés específica, puede utilizar las herramientas Crear geometría y Filtrar por extensión.

Para especificar el dataset que se utilizará como entrada para una herramienta, realice una de las siguientes acciones:

  • Dibuje una línea arrastrando el puntero desde el conector de un elemento al otro.
  • Utilice el parámetro dataset de entrada para identificar el dataset de entrada.

El procesamiento de los datos es opcional. Después de conectarse al dataset, puede escribirlo como una capa de entidades sin procesamiento.

Para mejorar el rendimiento del procesamiento de la canalización de datos, puede limitar la cantidad de datos con los que trabaja utilizando una de las siguientes herramientas o una combinación de ellas:

  • Seleccionar campos: conserva solo los campos de interés. Por ejemplo, tiene un dataset censal con campos para los años 2000 y 2010, pero solo le interesa el año 2010. Seleccione solamente los campos que representan valores de 2010.
  • Filtrar por atributo: conserva un subconjunto de registros que contienen determinados valores de atributo. Por ejemplo, filtre un dataset de terremotos de aquellos de una magnitud superior a 5,5.
  • Filtrar por extensión: conserva un subconjunto de registros dentro de una extensión espacial determinada. Por ejemplo, filtre un dataset de zonas de riesgo de inundación de Estados Unidos en la extensión de otro dataset que represente un límite estatal.

Vista previa de los elementos de la canalización de datos

Utilice la vista previa para investigar sus datos en cualquier paso del flujo de trabajo. La vista previa ofrece los siguientes métodos para inspeccionar sus datos:

  • Vista previa de la tabla: muestra una representación tabular de los datos.
  • Vista previa del mapa: muestra las ubicaciones del dataset en un mapa. En la vista previa del mapa, puede desplazarse, hacer zoom e inspeccionar los atributos.
  • Esquema: se ve el esquema del dataset.
  • Mensajes: se revisan los mensajes devueltos por la acción de vista previa.

Las vistas previas muestran hasta 8000 registros de datos.

Al previsualizar los campos de fecha y hora, los valores se mostrarán en zona de tiempo del navegador. Cuando los valores se escriban en una capa de entidades, se almacenarán en UTC.

Las vistas previas de datasets con geometrías complejas pueden consumir una gran cantidad de memoria disponible. Si se superan los umbrales de memoria, las vistas previas de mapas pueden no representarse o el estado puede cambiar a reconexión mientras se recupera. Para mejorar el rendimiento de la vista previa, tenga en cuenta lo siguiente:

Para escribir el dataset completo en una capa de entidades, asegúrese de eliminar la herramienta de filtro o simplificación antes de ejecutar la canalización de datos.

Ejecutar una canalización de datos

Utilice el botón Ejecutar del diagrama de canalización de datos para ejecutar los procesos configurados. Para ejecutar una canalización de datos, debe configurarse al menos un elemento de salida de la Capa de entidades. Se puede acceder a los resultados y mensajes del trabajo desde la consola de detalles de la última ejecución. Puede hacer clic en un resultado para abrir la página de detalles del elemento.

Para ejecutar una canalización de datos según un programa automatizado, puede crear una tarea. Para obtener más información sobre la creación de tareas de canalización de datos programadas, consulte Programar una tarea de canalización de datos.