Utilizar registros de Databricks (beta)—ArcGIS Data Pipelines

Nota:

Esta característica se encuentra en versión beta en la actualidad. Comparta su experiencia y busque apoyo a través del foro de comentarios sobre la versión beta de la Comunidad de Data Pipelines.

Utilice los registros de una tabla de Databricks (beta) como entrada de ArcGIS Data Pipelines.

Notas de uso

Tenga en cuenta lo siguiente al trabajar con Databricks (beta):

Para utilizar un dataset de Databricks (beta), primero debe crear un elemento de data store. Los elementos de data store almacenan de forma segura las credenciales y la información de conexión para que Data Pipelines pueda leer los datos. Para crear un data store, siga los pasos que se indican en la sección Conectarse a Databricks (beta) más adelante.
Para cambiar el elemento de data store configurado, use el parámetro Elemento de data store para eliminar el elemento seleccionado actualmente y elija una de las siguientes opciones:
- Agregar data store: cree un nuevo elemento de data store.
- Seleccionar elemento: explore su contenido para seleccionar un elemento del data store existente.
Utilice el parámetro Esquema para especificar el esquema que contiene el dataset que desea utilizar.
Use el parámetro Tabla para especificar el dataset que desea utilizar.
Para mejorar el rendimiento de la lectura de los datasets de entrada, tenga en cuenta las opciones siguientes:
- Utilice el parámetro Usar almacenamiento en caché para almacenar una copia del dataset. La copia en caché solo se mantiene mientras al menos una pestaña abierta del navegador esté conectada al editor. Esto puede hacer que sea más rápido acceder a los datos durante el procesamiento. Si los datos de origen se han actualizado desde que se almacenaron en caché, desmarque este parámetro y vuelva a realizar la vista previa o a ejecutar la herramienta.
- Tras configurar un dataset de entrada, configure cualquiera de las herramientas siguientes que limitan la cantidad de datos que se procesan:
  - Filtrar por atributo: conserva un subconjunto de registros que contienen determinados valores de atributo.
  - Filtrar por extensión: conserva un subconjunto de registros dentro de una extensión espacial determinada.
  - Seleccionar campos: conserva solo los campos de interés.
  - Recortar: conserva un subconjunto de registros que intersecan con geometrías específicas.

Conectarse a Databricks (beta)

Para utilizar los datos almacenados en Databricks (beta), complete los pasos siguientes para crear un elemento de data store en el editor de Data Pipelines:

En la barra de herramientas del editor de Data Pipelines, haga clic en Entradas, y elija Databricks (beta).
Aparece el cuadro de diálogo Seleccionar una conexión de data store.
Elija Agregar un nuevo data store y haga clic en Siguiente.
Aparece el cuadro de diálogo Agregar una conexión a un data store.
Especifique la URL del servidor para la cuenta de Databricks.
Lo siguiente es un ejemplo: my_account.azuredatabricks.net.
La validación puede fallar si especifica https:// en la URL del servidor.
Elija uno de los siguientes tipos de autenticación:
- OAuth equipo a equipo: proporcione el Id. de cliente y el secreto de cliente de su cuenta de Databricks.
- Token de acceso personal: especifique el token para su cuenta de Databricks.
En el parámetro Ruta HTTP, especifique la ruta HTTP para el recurso informático de Databricks que se va a utilizar.
Se recomienda utilizar un almacén sin servidor. La conexión de los almacenes sin servidor puede ser más rápida que la de los almacenes clásicos.
En el parámetro Catálogo (opcional), introduzca el nombre del catálogo que contiene los datasets que desea utilizar.
Si no se especifica un catálogo, el elemento del almacén de datos se conecta al catálogo predeterminado para su cuenta de Databricks.
Haga clic en Siguiente.
Aparece el panel de detalles del elemento.
Proporcione un título para el nuevo elemento de data store.
Este título aparecerá en el contenido. También puede guadar el elemento en una carpeta específica y proporcionar etiquetas de elemento o un resumen.
Haga clic en Crear conexión para crear el elemento de data store.
Aparece el cuadro de diálogo Seleccionar datasets.
En el parámetro Esquema, especifique el nombre del esquema que contiene la tabla desde la que cargar los registros.
En el parámetro Tabla, indique el nombre de la tabla que contiene los registros que se utilizarán como entrada para la canalización de datos.
Haga clic en Agregar.
Se agrega un elemento Databricks (beta) al lienzo.

Limitaciones

Las siguientes son limitaciones conocidas:

Si su organización ha bloqueado las aplicaciones y funciones beta, no podrá acceder a la opción de entrada Databricks (beta).
Para trabajar con datos de una tabla de Databricks, primero debe iniciar el almacén de Databricks. Data Pipelines iniciará el almacén cuando se soliciten los datos. La carga de registros o campos de una tabla de Databricks puede tardar unos minutos en función de lo que tarde en iniciarse el almacén. Para mejorar el rendimiento, se recomienda utilizar un almacén sin servidor en lugar de un almacén clásico.
Los tipos de campo que no pueden consultarse mediante SQL de Databricks no pueden utilizarse en Data Pipelines.
Para utilizar un elemento del almacén de datos para conectarse a fuentes de datos externas, debe ser el propietario del elemento del almacén de datos. Los elementos del data store datos son privados y no pueden compartirse.

Requisitos de licencia

Se requieren las siguientes licencias y configuraciones:

Tipo de usuario Creator o Professional
Rol de publicador, moderador o administrador, o rol personalizado equivalente

Para obtener más información sobre los requisitos de Data Pipelines, consulte Requisitos.

¿Algún comentario sobre este tema?

Nota:

Notas de uso

Conectarse a Databricks (beta)

Limitaciones

Requisitos de licencia

En este tema