Verwenden Sie Datensätze aus Dateien, die in einem Microsoft Azure Storage-Container gespeichert sind, als Eingabe für ArcGIS Data Pipelines.
Verwendungshinweise
Beachten Sie beim Arbeiten mit Microsoft Azure Storage Folgendes:
- Damit Sie ein Dataset aus Azure verwenden können, müssen Sie zunächst ein Data-Store-Element erstellen. In Data-Store-Elementen werden Anmelde- und Verbindungsinformationen sicher gespeichert, sodass die Daten von Data Pipelines ausgelesen werden können. Führen Sie zum Erstellen eines Data Store die Schritte im nachstehenden Abschnitt "Herstellen der Verbindung mit Azure Storage" aus.
- Wenn Sie das von Ihnen konfigurierte Data-Store-Element ändern möchten, verwenden Sie den Parameter Data-Store-Element, um das aktuell ausgewählte Element zu entfernen, und wählen Sie eine der folgenden Optionen aus:
- Data Store hinzufügen: Erstellen Sie ein neues Data-Store-Element.
- Element auswählen: Navigieren Sie in Ihren Inhalten, und wählen Sie ein vorhandenes Data-Store-Element aus.
- Geben Sie im Parameter Dataset-Pfad das Dataset bzw. den Ordner mit dem Dataset an. Beispiel: MyHurricanesDataset verweist auf eine einzelne Datei, wohingegen MyFolder/ auf eine Dateisammlung verweist, die als einzelnes Dataset verwendet werden kann. In einem Ordner enthaltene Datasets müssen dasselbe Schema und denselben Dateityp aufweisen, damit sie als einzelnes Dataset verwendet werden können. Wenn der Ordner Dateien unterschiedlichen Typs enthält, können Sie die zu verwendenden Dateien über einen Platzhalter angeben. Beispiel: Wenn ein Ordner .csv- und .orc-Dateien enthält, werden .orc-Dateien mit dem Pfadwert MyFolder/*.orc angegeben.
- Das Dateiformat des Datasets, das Sie im Parameter Dataset-Pfad angegeben haben, geben Sie im Parameter Dateiformat an. Die folgenden Formatoptionen sind verfügbar:
- CSV oder durch Trennzeichen getrennt (z. B. .csv, .tsv und .txt)
- Parquet (.parquet)
- GeoParquet (.geoparquet)
- JSON (z. B. eine .json- oder .txt-Datei mit Daten im JSON-Format)
- GeoJSON (z. B. .json und .geojson oder eine .txt-Datei mit Daten im GeoJSON-Format)
- Shapefile (.shp)
- File-Geodatabase (.gdb)
- ORC (.orc)
- Wenn die Formatoption CSV oder durch Trennzeichen getrennt angegeben ist, sind die folgenden Parameter für die Dataset-Definition verfügbar:
- Trennzeichen: Das Trennzeichen, mit dem Feld- und Datensatzwerte (bzw. Spalten- und Zeilenwerte) getrennt werden. Die Standardeinstellung ist die Trennung durch ein Komma (,). Häufig werden auch unter anderem Tabstopps (\t), Semikolons (;), vertikale Balken (|) sowie Schrägstriche und umgekehrte Schrägstriche (/ bzw. \) verwendet.
- Hat Kopfzeile: Gibt an, ob das Dataset eine Kopfzeile enthält. Der Standardwert ist "true". Bei der Festlegung auf "False" wird die erste Zeile als Datensatz verarbeitet.
- Hat mehrzeilige Daten: Gibt an, ob das Dataset Datensätze umfasst, die Zeilenumbruchzeichen enthalten. Der Standardwert ist "false". Wenn "true" festgelegt ist, werden Daten, die mehrzeilige Daten umfassen, richtig gelesen und formatiert.
- Zeichencodierung: Gibt den zum Lesen des angegebenen Datasets verwendeten Codierungstyp an. Die Standardeinstellung ist UTF-8. Sie können aus den verfügbaren Codierungsoptionen auswählen oder einen Codierungstyp angeben. Leerzeichen werden in Codierungswerten nicht unterstützt. So ist beispielsweise der Wert "ISO 8859-8" ungültig. Stattdessen muss "ISO-8859-8" angegeben werden.
- Mit Felder können Sie Feldnamen und -typen konfigurieren, wenn der Wert des Datenformats CSV oder durch Trennzeichen getrennt entspricht. Mit der Schaltfläche Schema konfigurieren wird ein Dialogfeld geöffnet, das Dataset-Felder mit den folgenden Optionen enthält:
- Felder einbeziehen oder löschen: Sie können Felder entfernen, indem Sie das Kontrollkästchen neben dem entsprechenden Feld aktivieren. Standardmäßig werden alle Felder eingeschlossen.
- Feldname: Der in Data Pipelines verwendete Name des Feldes. Dieser Wert kann bearbeitet werden. Standardmäßig ist dieser Wert mit dem des Feldes im Quellen-Dataset identisch, es sei denn, der Quellenname enthält ungültige Zeichen oder stellt ein reserviertes Wort dar. Ungültige Zeichen werden durch einen Unterstrich (_) ersetzt, und reservierten Wörtern wird ein Unterstrich (_) vorangestellt.
- Feldtyp: Der Feldtyp, der in Data Pipelines verwendet wird. Dieser Wert kann bearbeitet werden.
Feldtyp Beschreibung Zeichenfolge
Felder des Typs "Zeichenfolge" unterstützen eine Zeichenfolge aus Textzeichen.
Small Integer
Felder des Typs "Small Integer" unterstützen ganze Zahlen zwischen -32768 und 32767.
Integer
Felder des Typs "Integer" unterstützen ganze Zahlen zwischen -2147483648 und 2147483647.
Big Integer
Felder des Typs "Big Integer" unterstützen ganze Zahlen zwischen -9223372036854776000 und 9223372036854776000.
Float
Felder des Typs "Float" unterstützen Bruchzahlen zwischen ca. -3,4E38 und 3,4E38.
Double
Felder des Typs "Double" unterstützen Bruchzahlen zwischen ca. -2,2E308 und 1,8E308.
Datum
Felder des Typs "Datum" unterstützen Werte im Format yyyy-MM-dd HH:mm:ss, ein gültiger Wert ist z. B. 2022-12-31 13:30:30. Wenn die Datumswerte in einem anderen Format gespeichert sind, berechnen Sie mit dem Werkzeug Datums-/Uhrzeitfeld erstellen ein Datumsfeld.
Boolesch
Felder des Typs "Boolesch" unterstützen die Werte True und False. Wenn ein Feld Integer-Darstellungen boolescher Werte (0 und 1) enthält, wandeln Sie mit dem Werkzeug Felder aktualisieren die ganzen Zahlen in boolesche Werte um.
- Wenn die Formatoption JSON angegeben ist, ist der Parameter Stammeigenschaft verfügbar. Mit diesem Parameter können Sie eine Eigenschaft in der JSON-Struktur angeben, aus der Daten gelesen werden sollen. Sie können verschachtelte Eigenschaften referenzieren, indem Sie ein Dezimaltrennzeichen zwischen den einzelnen Eigenschaften verwenden, z. B. property.subProperty. Standardmäßig wird die vollständige JSON-Datei gelesen.
- Wenn die Formatoption GeoJSON angegeben ist, ist der Parameter Geometrietyp verfügbar. Dieser Parameter ist optional. Standardmäßig wird der Geometrietyp in der GeoJSON-Datei verwendet. Wenn die GeoJSON-Datei mehrere Geometrietypen enthält, müssen Sie einen Wert für diesen Parameter angeben. Gemischte Geometrietypen werden nicht unterstützt. Es wird nur der angegebene Typ verwendet. Die Optionen lauten Punkt, Multipoint, Polylinie und Polygon. Ein Geometriefeld mit den Positionen der GeoJSON-Daten wird automatisch berechnet und dem Eingabe-Dataset hinzugefügt. Das Geometriefeld kann als Eingabe für räumliche Operationen oder zum Aktivieren der Geometrie im Ausgabeergebnis verwendet werden.
- Bei Angabe der Formatoption File-Geodatabase ist der Parameter Feature-Class- oder Tabellenname verfügbar. Geben Sie mit diesem Parameter den Namen der Feature-Class oder Tabelle an, die Sie als Eingabe verwenden möchten. Es werden nur Point-, Multipoint-, Polyline- und Polygon-Feature-Classes und -Tabellen unterstützt. Datasets vom Typ Raster, Mosaik, Trajektorie usw. werden nicht unterstützt. Erweiterte Feature-Typen wie Features in geometrischen Netzwerken werden nicht unterstützt.
- Mit den folgenden Optionen können Sie die Performance beim Lesen von Eingabe-Datasets verbessern:
- Verwenden Sie den Parameter Caching verwenden, um eine Kopie des Dataset zu speichern. Die gecachte Kopie wird nur beibehalten, solange mindestens eine im Editor geöffnete Browser-Registerkarte verbunden ist. Dadurch wird der Zugriff auf die Daten bei der Verarbeitung möglicherweise beschleunigt. Wenn die Quelldaten aktualisiert wurden, nachdem sie gecacht wurden, deaktivieren Sie diesen Parameter, und zeigen Sie eine Vorschau an, oder führen Sie das Werkzeug erneut aus.
- Konfigurieren Sie nach dem Konfigurieren eines Eingabe-Dataset die folgenden Werkzeuge, mit denen die Menge der verarbeiteten Daten begrenzt wird:
- Nach Attribut filtern: Es wird eine Teilmenge der Datensätze beibehalten, die bestimmte Attributwerte enthalten.
- Felder auswählen: Es werden nur die Felder von Interesse beibehalten.
- Nach Ausdehnung filtern: Es wird eine Teilmenge der Datensätze innerhalb einer bestimmten räumlichen Ausdehnung beibehalten.
Herstellen einer Verbindung mit Azure Storage
Führen Sie die folgenden Schritte zum Erstellen eines Data-Store-Elements im Azure-Editor aus, um in Data Pipelines Storage gespeicherte Daten zu verwenden.
- Klicken Sie auf der Werkzeugleiste des Data Pipelines-Editors auf Eingaben, und wählen Sie Microsoft Azure Storage aus.
Das Dialogfeld Data-Store-Verbindung auswählen wird angezeigt.
- Wählen Sie Neuen Data Store hinzufügen aus.
- Klicken Sie auf Weiter.
Das Dialogfeld Verbindung zu einem Data Store hinzufügen wird angezeigt.
- Wählen Sie den Authentifizierungstyp für den Zugriff auf die Daten aus.
- Geben Sie die Authentifizierungswerte an.
Die Authentifizierungswerte sind unterschiedlich, je nachdem, welcher Authentifizierungstyp ausgewählt wurde.
- Geben Sie den Namen des Containers an, in dem die Daten gespeichert sind.
- Geben Sie optional den Pfad zu einem Ordner im Container an, um eine Registrierung vorzunehmen.
- Klicken Sie auf Weiter.
Die Elementdetailseite wird angezeigt.
- Geben Sie einen Titel für das neue Data-Store-Element an.
Dieser Titel wird in Ihren Inhalten angezeigt. Sie haben zudem die Möglichkeit, das Element in einem bestimmten Ordner abzuspeichern und Tags oder eine Zusammenfassung für das Element anzugeben.
- Klicken Sie auf Verbindung erstellen, um das Data-Store-Element zu erstellen.
Der Zeichenfläche wird ein Microsoft Azure Storage-Element hinzugefügt, das Sie für ein bestimmtes Dataset konfigurieren können.
Einschränkungen
Die folgenden Einschränkungen sind bekannt:
- Der Benutzer, dessen Anmeldeinformationen verwendet werden, muss mindestens über die Berechtigungen READ und LIST verfügen. Diese Berechtigungen ermöglichen das Zugreifen auf den angegebenen Container und das Lesen der darin enthaltenen Datasets.
- Wenn Sie einen Ordner mit mehreren Dateien angeben, der ein einzelnes Dataset darstellen soll, müssen alle Dateien im Azure Storage-Ordner dasselbe Schema und denselben Geometrietyp aufweisen.
- Gezippte Dateien (.zip) werden nicht unterstützt.
- Esri JSON-Daten (.esrijson) werden nicht unterstützt.
- Für die Azure-Daten, die als Eingabe in Data Pipelines dienen, muss Vorläufiges Löschen für Blobs aktivieren deaktiviert werden.
- Wenn das Dataset Feldnamen mit Leerzeichen oder ungültigen Zeichen enthält, werden die Namen automatisch mit Unterstrichen aktualisiert. So wird zum Beispiel ein Feld namens Population 2022 in Population_2022 und ein Feld namens %Employed in _Employed umbenannt.
- Um ein Data-Store-Element für Verbindungen mit externen Datenquellen zu verwenden, müssen Sie der Besitzer des Data-Store-Elements sein. Für Sie freigegebene Data-Store-Elemente werden nicht als Eingabe unterstützt.
Lizenzanforderungen
Die folgenden Lizenzen und Konfigurationen werden benötigt:
- Benutzertyp Creator oder Professional
- Publisher-, Vermittler- oder Administratorrolle oder eine entsprechende benutzerdefinierte Rolle
Weitere Informationen zu den Anforderungen für Data Pipelines finden Sie unter Anforderungen.