Die Data Pipelines, die Sie in der App ArcGIS Data Pipelines erstellen, werden als Elemente in Ihren Inhalten gespeichert. Zum Erstellen und Bearbeiten von Data Pipelines verwenden Sie den Data Pipelines-Editor. In den folgenden Abschnitten wird der Data-Pipeline-Editor beschrieben. Außerdem erfahren Sie, wie Sie eine Data Pipeline im Editor erstellen und ausführen.
Elemente von Data Pipelines
Eine Data Pipeline besteht aus den folgenden drei Elementen:
- Eingaben
- Eine Eingabe wird verwendet, um Daten für die nachgelagerte Verarbeitung in die Data Pipeline zu laden. Es sind zahlreiche Eingabe-Quellentypen verfügbar. Weitere Informationen zu Quellen und Quellentypen finden Sie unter Dataset-Konfiguration.
- Eine einzelne Data Pipeline kann mehrere Datenquellen enthalten. In einem Data-Pipeline-Workflow ist mindestens eine Datenquelle erforderlich.
- Werkzeuge
- Die aus den Eingabe-Datasets geladenen Daten werden mit Werkzeugen verarbeitet.
- Eine einzelne Data Pipeline kann mehrere Werkzeuge enthalten.
- Die Werkzeuge können miteinander verbunden werden, wobei die Ausgabe eines Werkzeugs die Eingabe des nächsten Werkzeugs darstellt.
- Weitere Informationen über die verfügbaren Werkzeuge und ihre Verwendung finden Sie unter Datenverarbeitung.
- Ausgaben
- Eine Ausgabe bestimmt, was mit den Ergebnissen der Data Pipeline geschehen soll.
- Sie können die Ergebnisse der Data Pipeline in einen neuen Feature-Layer ausgeben, die Daten in einem vorhandenen Feature-Layer ersetzen oder die vorhandenen Daten in einem Feature-Layer mit den Ergebnissen ergänzen und aktualisieren.
- Eine einzelne Data Pipeline kann mehrere Ausgaben enthalten.
- Sie können mehrere Ausgaben für ein einzelnes Werkzeugergebnis oder Eingabe-Dataset konfigurieren. Zum Ausführen einer Data Pipeline ist mindestens eine Ausgabe erforderlich.
- Weitere Informationen zum Schreiben von Ergebnissen finden Sie unter Feature-Layer.
Data-Pipeline-Workflow
Der Data-Pipeline-Workflow besteht aus den drei oben beschriebenen Elementen: Herstellen einer Verbindung zu vorhandenen Daten, Ausführen von Data Engineering und Schreiben der neu vorbereiteten Daten. Beim Ausführen einer Data Pipeline wird mindestens eine Ausgabe generiert. Alle Ausgabeergebnisse sind in Ihrem Inhalt verfügbar.
Herstellen einer Verbindung zu den Daten
Der erste Schritt beim Erstellen einer Data Pipeline besteht darin, eine Verbindung zu den Daten herzustellen. Wählen Sie in der Werkzeugleiste "Editor" unter Eingaben den Quellentyp aus, zu dem eine Verbindung hergestellt werden soll. Wählen Sie beispielsweise Feature-Layer aus, und navigieren Sie zu dem Layer, oder wählen Sie Amazon S3 aus, und navigieren Sie zu dem Data-Store-Element, das den Bucket und Ordner mit dem Dataset darstellt. Weitere Informationen zum Herstellen einer Verbindung und Optimieren der Lese-Performance finden Sie unter Dataset-Konfiguration.
Durchführen der Datenverarbeitung
Der zweite Schritt besteht in der Verarbeitung der Eingabedaten. Wählen Sie in der Werkzeugleiste "Editor" unter Werkzeuge den Prozess aus, der bei dem Dataset ausgeführt werden soll. Um beispielsweise Positionen für CSV-Daten zu berechnen und die Positionen für einen bestimmten Interessenbereich zu filtern, können Sie die Werkzeuge "Geometrie erstellen" und "Nach Ausdehnung filtern" verwenden.
Führen Sie einen der folgenden Schritte aus, um das Dataset anzugeben, das als Werkzeug-Eingabe verwendet werden soll:
- Zeichnen Sie eine Linie, indem Sie den Zeiger vom Konnektor eines Elements zu einem anderen ziehen.
- Verwenden Sie den Parameter "Eingabe-Dataset", um das Eingabe-Dataset zu identifizieren.
Die Verarbeitung der Daten ist optional. Nachdem Sie eine Verbindung zum Dataset hergestellt haben, können Sie es ohne Verarbeitung als Feature-Layer schreiben.
Um die Performance der Data-Pipeline-Verarbeitung zu verbessern, können Sie die Datenmenge, mit der Sie arbeiten, mit einem oder mehreren der folgenden Werkzeuge begrenzen:
- Felder auswählen: Es werden nur die Felder von Interesse beibehalten. Beispiel: Sie haben ein Dataset mit Volkszählungsdaten und Feldern für die Jahre 2000 und 2010. Sie sind aber nur an den Daten von 2010 interessiert. Also wählen Sie nur die Felder mit Werten von 2010 aus.
- Nach Attribut filtern: Es wird eine Teilmenge der Datensätze beibehalten, die bestimmte Attributwerte enthalten. Beispiel: Sie filtern ein Dataset mit Erdbebendaten so, dass nur Erdbeben ab einer Stärke von 5,5 berücksichtigt werden.
- Nach Ausdehnung filtern: Es wird eine Teilmenge der Datensätze innerhalb einer bestimmten räumlichen Ausdehnung beibehalten. Beispiel: Sie filtern ein Dataset mit Daten zu hochwassergefährdeten Gebieten der USA nach der Ausdehnung eines anderen Datasets, das die Grenze eines Bundesstaates darstellt.
Anzeigen einer Vorschau der Data-Pipeline-Elemente
Verwenden Sie die Vorschau, um Ihre Daten in jedem Schritt des Workflows zu überprüfen. Die Vorschaufunktion bietet die folgenden Methoden zur Überprüfung Ihrer Daten:
- Tabellenvorschau: Zeigen Sie eine Tabellendarstellung der Daten an.
- Kartenvorschau: Zeigen Sie die Positionen des Datasets auf einer Karte an. In der Kartenvorschau können Sie die Ansicht schwenken und zoomen und Attribute prüfen.
- Schema: Zeigen Sie das Schema des Datasets an.
- Meldungen: Überprüfen Sie die von der Vorschauaktion zurückgegebenen Meldungen.
In einer Vorschau werden bis zu 8.000 Datensätze angezeigt.
Bei der Vorschau von Datums-/Uhrzeitfeldern werden die Werte in der Zeitzone des Browsers angezeigt. Werden die Werte in einen Feature-Layer geschrieben, werden sie in UTC-Zeit gespeichert.
Die Vorschau von Datasets mit komplexen Geometrien kann eine große Menge an verfügbarem Speicher verbrauchen. Beim Überschreiten von Speicherschwellenwerten wird die Kartenvorschau möglicherweise nicht gerendert, oder der Status wechselt während der Wiederherstellung in den Status zur Wiederherstellung der Verbindung. Um die Performance zu verbessern, sollten Sie Folgendes berücksichtigen:
- Bei allen Geometrietypen können Sie dem Dataset mit dem Werkzeug Nach Attribut filtern oder dem Werkzeug Nach Ausdehnung filtern einen Filter hinzufügen.
- Bei Polygon-Geometrien können Sie die Geometrien mit dem Werkzeug Geometrie vereinfachen generalisieren.
Um das vollständige Dataset in einen Feature-Layer zu schreiben, achten Sie darauf, vor dem Ausführen der Data Pipeline das Filter- oder Vereinfachungswerkzeug zu entfernen.
Ausführen einer Data Pipeline
Verwenden Sie die Schaltfläche Ausführen in der Aktionsleiste der Zeichenfläche, um die konfigurierten Prozesse auszuführen. Zum Ausführen einer Data Pipeline muss mindestens ein Feature-Layer als Ausgabe-Element konfiguriert sein. Auftragsergebnisse und -meldungen können über die Konsole "Details der letzten Ausführung" aufgerufen werden. Sie können auf ein Ergebnis klicken, um die Elementseite zu öffnen.
Um eine Data Pipeline nach einem automatisierten Zeitplan auszuführen, können Sie einen Task erstellen. Weitere Informationen zum Erstellen geplanter Tasks für Data Pipelines finden Sie unter Planen eines Data-Pipeline-Tasks.