Skip To Content

Verwenden von Datensätzen aus Databricks (Beta)

Hinweis:
Dieses Feature befindet sich derzeit im Beta-Stadium. Teilen Sie Ihre Erfahrungen, und suchen Sie Unterstützung im Forum Beta Features Feedback in der Data Pipelines-Community.

Verwenden Sie Datensätze aus einer Tabelle aus Databricks (Beta) als Eingabe in ArcGIS Data Pipelines.

Verwendungshinweise

Beachten Sie beim Arbeiten mit Databricks (Beta) Folgendes:

  • Damit Sie ein Dataset aus Databricks (Beta) verwenden können, müssen Sie zunächst ein Data-Store-Element erstellen. In Data-Store-Elementen werden Anmelde- und Verbindungsinformationen sicher gespeichert, sodass die Daten von Data Pipelines ausgelesen werden können. Führen Sie zum Erstellen eines Data Store die Schritte im nachstehenden Abschnitt "Herstellen der Verbindung mit Databricks (Beta)" aus.
  • Wenn Sie das von Ihnen konfigurierte Data-Store-Element ändern möchten, verwenden Sie den Parameter Data-Store-Element, um das aktuell ausgewählte Element zu entfernen, und wählen Sie eine der folgenden Optionen aus:
    • Data Store hinzufügen: Erstellen Sie ein neues Data-Store-Element.
    • Element auswählen: Navigieren Sie in Ihren Inhalten, und wählen Sie ein vorhandenes Data-Store-Element aus.
  • Verwenden Sie den Parameter Schema, um das Schema anzugeben, das das Dataset enthält, das Sie verwenden möchten.
  • Im Parameter Tabelle geben Sie das Dataset an, das Sie verwenden möchten.
  • Mit den folgenden Optionen können Sie die Performance beim Lesen von Eingabe-Datasets verbessern:
    • Verwenden Sie den Parameter Caching verwenden, um eine Kopie des Dataset zu speichern. Die gecachte Kopie wird nur beibehalten, solange mindestens eine im Editor geöffnete Browser-Registerkarte verbunden ist. Dadurch wird der Zugriff auf die Daten bei der Verarbeitung möglicherweise beschleunigt. Wenn die Quelldaten aktualisiert wurden, nachdem sie gecacht wurden, deaktivieren Sie diesen Parameter, und zeigen Sie eine Vorschau an, oder führen Sie das Werkzeug erneut aus.
    • Konfigurieren Sie nach dem Konfigurieren eines Eingabe-Dataset die folgenden Werkzeuge, mit denen die Menge der verarbeiteten Daten begrenzt wird:
      • Nach Attribut filtern: Es wird eine Teilmenge der Datensätze beibehalten, die bestimmte Attributwerte enthalten.
      • Nach Ausdehnung filtern: Es wird eine Teilmenge der Datensätze innerhalb einer bestimmten räumlichen Ausdehnung beibehalten.
      • Felder auswählen: Es werden nur die Felder von Interesse beibehalten.
      • Ausschneiden: Es wird eine Teilmenge der Datensätze beibehalten, die sich mit bestimmten Geometrien überschneiden.

Herstellen der Verbindung mit Databricks (Beta)

Führen Sie die folgenden Schritte zum Erstellen eines Data-Store-Elements im Data Pipelines-Editor aus, um in Databricks gespeicherte Daten zu verwenden:

  1. Klicken Sie auf der Werkzeugleiste des Data Pipelines-Editors auf Eingaben, und wählen Sie Databricks (Beta).

    Das Dialogfeld Data-Store-Verbindung auswählen wird angezeigt.

  2. Wählen Sie Einen neuen Data Store hinzufügen aus, und klicken Sie auf Weiter.

    Das Dialogfeld Verbindung zu einem Data Store hinzufügen wird angezeigt.

  3. Geben Sie die Server-URL für das Databricks-Konto ein.
    Beispiel: my_account.azuredatabricks.net.

    Die Validierung kann fehlschlagen, wenn Sie https:// in der Server-URL angeben.

  4. Wählen Sie eine der folgenden Authentifizierungstypen aus:
    • OAuth Machine-to-Machine: Geben Sie die Client-ID und den geheimen Clientschlüssel Ihres Databricks-Kontos ein.
    • Persönliches Zugriffstoken: Geben Sie das Token Ihres Databricks-Kontos ein.
  5. Geben Sie im Parameter HTTP-Pfad den HTTP-Pfad für die Databricks-Rechenressource an, die verwendet wird.

    Die Verwendung eines serverlosen Warehouse wird empfohlen. Serverlose Warehouses lassen sich möglicherweise schneller verbinden als klassische Warehouses.

  6. Geben Sie im Parameter Katalog (optional) den Namen des Katalogs an, der die Datasets enthält, die verwendet werden sollen.
    Wenn Sie keinen Katalog angeben, wird das Data-Store-Element mit dem Standardkatalog Ihres Databricks-Kontos verbunden.
  7. Klicken Sie auf Weiter.

    Die Elementdetailseite wird angezeigt.

  8. Geben Sie einen Titel für das neue Data-Store-Element an.

    Dieser Titel wird in Ihren Inhalten angezeigt. Sie haben zudem die Möglichkeit, das Element in einem bestimmten Ordner abzuspeichern und Tags oder eine Zusammenfassung für das Element anzugeben.

  9. Klicken Sie auf Verbindung erstellen, um das Data-Store-Element zu erstellen.

    Das Dialogfeld Datasets auswählen wird angezeigt.

  10. Geben Sie im Parameter Schema den Namen des Schemas an, das die Tabelle enthält, aus der die Datensätze geladen werden sollen.
  11. Geben Sie im Parameter Tabelle den Namen der Tabelle an, die die Datensätze enthält, die als Eingabe für die Data Pipeline verwendet werden sollen.
  12. Klicken Sie auf Hinzufügen.

    Der Zeichenfläche wird ein Element aus Databricks (Beta) hinzugefügt.

Einschränkungen

Die folgenden Einschränkungen sind bekannt:

  • Wenn Ihre Organisation Beta-Apps und -Funktionen gesperrt hat, können Sie nicht auf die Eingabe-Option "Databricks (Beta)" zugreifen.
  • Um mit Daten aus einer Databricks-Tabelle arbeiten zu können, muss zunächst das Databricks-Warehouse gestartet werden. Das Warehouse wird von Data Pipelines bei Anforderung der Daten gestartet. Es kann einige Augenblicke dauern, bis die Datensätze oder Felder aus einer Databricks-Tabelle geladen sind. Dies hängt davon ab, wie viel Zeit für das Starten des Warehouse benötigt wird. Zur Verbesserung der Performance empfiehlt es sich, ein serverloses Warehouse anstelle eines klassischen Warehouse zu verwenden.
  • Feldtypen, die mit Databricks SQL nicht abgefragt werden können, können in Data Pipelines nicht verwendet werden.
  • Um ein Data-Store-Element für Verbindungen mit externen Datenquellen zu verwenden, müssen Sie der Besitzer des Data-Store-Elements sein. Data-Store-Elemente sind privat und können nicht freigegeben werden.

Lizenzanforderungen

Die folgenden Lizenzen und Konfigurationen werden benötigt:

  • Benutzertyp Creator oder Professional
  • Publisher-, Vermittler- oder Administratorrolle oder eine entsprechende benutzerdefinierte Rolle

Weitere Informationen zu den Anforderungen für Data Pipelines finden Sie unter Anforderungen.