Utiliser des enregistrements Databricks (bêta)—ArcGIS Data Pipelines

Remarque :

Cette fonctionnalité est actuellement en version bêta. Partagez votre expérience et demandez de l’aide via le forum dédié au retour sur les fonctionnalités de la version bêta de la communauté Data Pipelines.

Utilisez des enregistrements d’une table Databricks (bêta) comme entrée de ArcGIS Data Pipelines.

Remarques sur l’utilisation

Gardez les points suivants à l’esprit lorsque vous utilisez Databricks (bêta) :

Pour utiliser un jeu de données de Databricks (bêta), vous devez d’abord créer un élément de data store. Les éléments de data store stockent de manière sécurisée les identifiants et les informations de connexion qui permettent à Data Pipelines de lire les données. Pour créer un data store, suivez la procédure décrite dans la section Se connecter à Databricks (bêta) ci-après.
Pour modifier l’élément de data store que vous avez configuré, utilisez le paramètre Data store item (Élément de data store) pour supprimer l’élément actuellement sélectionné et choisissez l’une des options suivantes :
- Add data store (Ajouter un data store) – Créez un nouvel élément de data store.
- Select item (Sélectionner un élément) – Accédez à du contenu pour sélectionner un élément de data store existant.
Utilisez le paramètre Schema (Structure) pour spécifier la structure qui contient le jeu de données à utiliser.
Utilisez le paramètre Table pour spécifier le jeu de données à utiliser.
Pour améliorer les performances de lecture des jeux de données en entrée, vous pouvez utiliser les options suivantes :
- Utilisez le paramètre Use caching (Utiliser la mise en cache) pour stocker une copie du jeu de données. La copie en cache est conservée uniquement si au moins un onglet de navigateur ouvert sur l’éditeur est connecté. Cela peut accélérer l’accès aux données lors du traitement. Si les données sources ont été mises à jour depuis leur mise en cache, désélectionnez ce paramètre et prévisualisez ou exécutez à nouveau l’outil.
- Après avoir configuré un jeu de données en entrée, configurez l’un des outils suivants pour limiter la quantité de données traitées :
  - Filtrer par attribut - conserve un sous-ensemble d’enregistrements contenant certaines valeurs attributaires.
  - Filtrer selon l’étendue - conserve un sous-ensemble d’enregistrements dans une certaine étendue spatiale.
  - Sélectionner des champs - Conserve uniquement les champs d’intérêt.
  - Clip (Découper) : conservez un sous-ensemble d’enregistrements qui intersectent des géométries spécifiques.

Connectez-vous à Databricks (bêta)

Pour utiliser les données stockées dans Databricks (bêta), suivez cette procédure pour créer un élément de data store dans l’éditeur Data Pipelines :

Dans la barre d’outils de l’éditeur Data Pipelines, cliquez sur Inputs (Entrées) et sélectionnez Databricks (bêta) [Databricks (bêta]).
La boîte de dialogue Select a data store connection (Sélectionner une connexion à un data store) s’affiche.
Sélectionnez Add a new data store (Ajouter un nouveau data store), puis cliquez sur Next (Suivant).
La boîte de dialogue Add a connection to a data store (Ajouter une connexion à un data store) apparaît.
Spécifiez l’URL du serveur du compte Databricks.
Par exemple : my_account.azuredatabricks.net.
La validation peut échouer si vous spécifiez https:// dans l’URL du serveur.
Sélectionnez l’un des types d’authentification suivants :
- OAuth machine-to-machine (OAuth machine à machine [M2M]) : spécifiez l’ID client et la clé secrète client de votre compte Databricks.
- Personal access token (Jeton d’accès personnel) : spécifiez le jeton de votre compte Databricks.
Dans le paramètre HTTP path (Chemin HTTP), spécifiez le chemin HTTP de la ressource de traitement Databricks à utiliser.
Il est recommandé d’utiliser un entrepôt sans serveur. Les entrepôts sans serveur peuvent permettre de se connecter plus rapidement que les entrepôts classiques.
Dans le paramètre Catalogue (optional) (Catalogue [facultatif]), spécifiez le nom du catalogue qui contient les jeux de données à utiliser.
Si vous ne spécifiez pas de catalogue, l’élément de data store se connecte au catalogue par défaut de votre compte Databricks.
Cliquez sur Next (Suivant).
La fenêtre des détails des éléments s’ouvre.
Indiquez un titre pour le nouvel élément de data store.
Ce titre apparaîtra dans votre contenu. Vous pouvez également stocker l’élément dans un dossier spécifique et indiquer des balises d’élément ou un résumé.
Cliquez sur Create connection (Créer une connexion) pour créer l’élément de data store.
La boîte de dialogue Select datasets (Sélectionner des jeux de données) apparaît.
Dans le paramètre Schema (Structure), spécifiez le nom de la structure qui contient la table dont les enregistrements doivent être chargés.
Dans le paramètre Table, spécifiez le nom de la table qui contient les enregistrements à utiliser comme entrée du pipeline de données.
Cliquez sur Add (Ajouter).
Un élément Databricks (bêta) est ajouté à la zone d’affichage.

Limitations

Les limitations connues sont les suivantes :

Si votre organisation a bloqué les fonctions et applications bêta, vous ne pouvez pas accéder à l’option en entrée Databricks (bêta).
Pour pouvoir utiliser les données d’une table Databricks, l’entrepôt Databricks doit être démarré au préalable. Data Pipelines démarre l’entrepôt lorsque les données sont demandées. Le chargement des enregistrements ou des champs d’une table Databricks peut prendre plusieurs minutes en fonction du délai de démarrage de l’entrepôt. Pour de meilleures performances, il est recommandé d’utiliser un entrepôt sans serveur au lieu d’un entrepôt classique.
Les types de champs qui ne peuvent pas être interrogés à l’aide du SQL Databricks ne peuvent pas être utilisés dans Data Pipelines.
Pour utiliser un élément de data store afin de vous connecter à des sources de données externes, vous devez être le propriétaire de l’élément du data store. Les éléments de data store sont privés et ne peuvent pas être partagés.

Licences requises

Les licences et configurations suivantes sont requises :

Type d’utilisateur Creator ou Professional
Rôle d’éditeur, de facilitateur ou d’administrateur, ou rôle personnalisé équivalent

Afin d’en savoir plus sur la configuration requise pour Data Pipelines, reportez-vous à la rubrique Conditions requises.

Vous avez un commentaire à formuler concernant cette rubrique ?

Remarque :

Remarques sur l’utilisation

Connectez-vous à Databricks (bêta)

Limitations

Licences requises

Dans cette rubrique