Das Werkzeug "Verbinden" verbindet Datasets auf der Grundlage der angegebenen Beziehungen. Datasets können mithilfe von übereinstimmenden Attributen, räumlichen oder zeitlichen Beziehungen oder einer Kombination dieser drei Aspekte verbunden werden.
Beispiele
Das Werkzeug "Verbinden" kann beispielsweise in den folgenden Szenarien verwendet werden:
- Verbinden von County-Polygonen mit County-Volkszählungsdaten auf der Grundlage übereinstimmender countyID-Feldwerte
- Verbinden von Datensätzen, die zu einem relativen Zeitpunkt und an einem relativen Ort entstehen, mithilfe sowohl einer zeitlichen als auch einer räumlichen Beziehung
Parameter
In der folgenden Tabelle werden die Parameter beschrieben, die im Werkzeug "Verbinden" verwendet werden:
Parameter | Beschreibung |
---|---|
Ziel-Dataset | Das Dataset, mit dem Datensätze verbunden werden |
Verbindungs-Dataset | Das Dataset, das mit dem Ziel-Dataset verbunden wird |
Verbindungsvorgang | Gibt an, ob alle übereinstimmenden Datensätze verbunden werden sollen (Eins zu Viele) oder ob alle übereinstimmenden Datensätze zusammen verbunden werden (Eins zu Eins). |
Verbindungstyp | Gibt an, ob Zieldatensätze, die keinen übereinstimmenden Verbindungsdatensatz haben, in der Ausgabe zurückgegeben werden sollen. |
Zusammenfassungsfelder | Bestimmt, für welche Verbindungs-Dataset-Felder Statistiken berechnet werden. |
Übereinstimmende Felder verwenden | Gibt an, ob eine Attributbeziehung verwendet wird. |
Zielfeld | Das Feld aus dem Ziel-Dataset, das zum Abgleichen von Datensätzen im Verbindungs-Dataset verwendet wird |
Join-Feld | Das Feld aus dem Verbindungs-Dataset, das zum Abgleichen von Datensätzen im Ziel-Dataset verwendet wird |
Räumliche Beziehung verwenden | Gibt an, ob eine räumliche Beziehung verwendet wird. |
Räumliche Beziehung | Gibt den Typ der räumlichen Beziehung an, die zum Definieren der Verbindungsbedingung zwischen Ziel- und Verbindungs-Dataset verwendet wird. |
Near-Entfernung | Der Schwellenwert für die lineare Entfernung, der zum Ermitteln von nah beieinander gelegenen Positionen verwendet wird. Dieser Parameter ist nur für räumliche Beziehungen des Typs Nahe (planar) oder Nahe (geodätisch) verfügbar. |
Einheit für Near-Entfernung | Die Einheit für den Schwellenwert für die lineare Entfernung. Dieser Parameter ist nur für räumliche Beziehungen des Typs Nahe (planar) oder Nahe (geodätisch) verfügbar. |
Zielgeometrie | Das Geometriefeld aus dem Ziel-Dataset, das zum Identifizieren räumlicher Beziehungen mit dem Verbindungs-Dataset verwendet wird |
Geometrie verbinden | Das Geometriefeld aus dem Verbindungs-Dataset, das zum Identifizieren räumlicher Beziehungen mit dem Ziel-Dataset verwendet wird |
Zeitliche Beziehung verwenden | Gibt an, ob eine zeitliche Beziehung verwendet wird. |
Zeitliche Beziehung | Gibt den Typ der zeitlichen Beziehung an, die zum Definieren der Verbindungsbedingung zwischen Ziel- und Verbindungs-Dataset verwendet wird. |
Near-Entfernung | Der Schwellenwert für die zeitliche Entfernung, der zum Ermitteln von zeitlich nah beieinander gelegenen Datensätzen verwendet wird. Dieser Parameter ist nur für zeitliche Beziehungen des Typs Nahe, Nahe vor oder Nahe nach verfügbar. |
Einheit für Near-Entfernung | Die Einheit für den Schwellenwert für die zeitliche Entfernung. Dieser Parameter ist nur für zeitliche Beziehungen des Typs Nahe, Nahe vor oder Nahe nach verfügbar. |
Zielstartzeit | Das Feld für Datum/Uhrzeit aus dem Ziel-Dataset, das zum Angeben der Startzeit eines Datensatzes verwendet wird |
Zielendzeit | Das Feld für Datum/Uhrzeit aus dem Ziel-Dataset, das zum Angeben der Endzeit eines Datensatzes verwendet wird. Dieser Parameter ist erforderlich, wenn Sie zum Verbinden Zeiten des Typs "Intervall" verwenden möchten. Weitere Informationen finden Sie unter Zeitliche Beziehungen in Data Pipelines. |
Verbindungsstartzeit | Das Feld für Datum/Uhrzeit aus dem Verbindungs-Dataset, das zum Angeben der Startzeit eines Datensatzes verwendet wird |
Verbindungszielzeit | Das Feld für Datum/Uhrzeit aus dem Verbindungs-Dataset, das zum Angeben der Endzeit eines Datensatzes verwendet wird. Dieser Parameter ist erforderlich, wenn Sie zum Verbinden Zeiten des Typs "Intervall" verwenden möchten. Weitere Informationen finden Sie unter Zeitliche Beziehungen in Data Pipelines. |
Verwendungshinweise
Verwenden Sie den Parameter Ziel-Dataset zum Identifizieren des Datasets, mit dem Datensätze verbunden werden. Verwenden Sie den Parameter Verbindungs-Dataset zum Identifizieren des Datasets, das die Datensätze enthält, die mit den Zieldatensätzen verbunden werden.
Wenn mehrere Verbindungsdatensätze mit dem gleichen Zieldatensatz übereinstimmen, können Sie wie folgt angeben, ob alle übereinstimmenden Datensätze verbunden werden sollen (Option Eins-zu-Viele-Verbindung) oder ob alle übereinstimmenden Datensätze zusammen verbunden werden (Option Eins-zu-Eins-Verbindung):
- Eins-zu-Viele-Verbindung: Alle übereinstimmenden Datensätze im Verbindungs-Dataset werden mit dem Ziel-Dataset verbunden. Der Ausgabe-Dataset enthält mehrere Datensätze für den Datensatz aus dem Ziel-Dataset.
- Eins-zu-Eins-Verbindung: Alle übereinstimmenden Verbindungsdatensätze werden zusammengefasst mit jedem Datensatz im Ziel-Dataset verbunden. In die Zusammenfassung und Ausgabe werden nur Datensätze mit einer Übereinstimmung einbezogen. Die Anzahl der verbundenen Datensätze wird hinzugefügt. Standardmäßig werden nur Zieldatensätze mit den angegebenen Beziehungen in der Ausgabe-Datensatzklasse (Inner Join) beibehalten. Wenn Left Join angegeben ist, werden alle Eingabe-Zieldatensätze in die Ausgabe-Datensatzklasse geschrieben (Left Outer Join).
Der Parameter Zusammenfassungsfelder bestimmt, welche Felder aus dem Verbindungs-Dataset zusammengefasst werden. Der Parameter Zusammenfassungsfelder ist verfügbar, wenn der Verbindungsvorgang Eins zu vielen verbinden ist. Die folgenden Summenstatistiken sind verfügbar:
- Summe: Die Summe der numerischen Werte in einem Feld. Die Summe von [null, 1, 3] ist 4.
- Min: Der Minimalwert eines numerischen Feldes oder Datumsfeldes. Das Minimum von [0, 2, null] ist 0.
- Max: Der Maximalwert eines numerischen Feldes oder Datumsfeldes. Das Maximum von [0, 2, null] ist 2.
- Mittelwert: Der Mittelwert der numerischen Werte. Der Mittelwert von [0, 2, null] ist 1.
- Standardabweichung: Die Standardabweichung eines numerischen Feldes. Die Standardabweichung von [null, 1, 1, 1] ist 0.
- Anzahl: Die Anzahl der Nicht-NULL-Werte. Kann für ein Feld jedes beliebigen Typs verwendet werden. Die Anzahl von [null, "hello", "world"] ist 2.
- Beliebig: Dies ist ein Beispielwert aus einem Feld eines beliebigen Typs.
Datensätze können basierend auf einer räumlichen Beziehung, einer zeitlichen Beziehung, einer Attributbeziehung oder einer Kombination aus diesen verbunden werden. Bei einer räumlichen Verbindung werden Datensätze (Zeilen) aus den Eingabedatensätzen (Parameterwerte Ziel-Dataset und Verbindungs-Dataset) basierend auf ihren räumlichen Positionen zugeordnet. Bei einer zeitlichen Verbindung werden Datensätze aus den Eingabedatensätzen basierend auf ihren zeitlichen Beziehungen zugeordnet. Bei einer Attributverbindung werden Datensätze basierend auf Feldwerten zugeordnet. In der folgenden Tabelle werden die jeweiligen Verbindungsbeziehungstypen beschrieben:
Beziehung | Beschreibung |
---|---|
Attribut | Die Attributbeziehung, mit der festgelegt wird, ob Datensätze miteinander verbunden werden. Datensätze werden zugeordnet, wenn die Feldwerte im Verbindungs-Dataset den Feldwerten im Ziel-Dataset entsprechen. Es wird empfohlen, Felder desselben Typs zu verwenden. |
Räumlich | Die räumliche Beziehung, anhand derer festgelegt wird, ob Datensätze miteinander verbunden werden. Die verfügbaren Beziehungen hängen vom Geometrietyp (Punkt, Linie oder Fläche) der Datasets ab, die verbunden werden. Die folgenden räumlichen Beziehungen sind verfügbar:
|
Zeitlich | Die zeitliche Beziehung, anhand derer festgelegt wird, ob Datensätze miteinander verbunden werden. Die verfügbaren Beziehungen hängen vom Zeittyp (Zeitpunkt oder Intervall) der Datasets ab, die verbunden werden. Die folgenden zeitlichen Beziehungen sind verfügbar:
|
Wenn sich Ziel- und Verbindungsgeometrien in unterschiedlichen Koordinatensystemen befinden, wird beim Analysieren räumlicher Beziehungen das Koordinatensystem des Ziel-Datasets verwendet.
Wenn der Parameterwert Räumliche Beziehung auf Nahe (planar) festgelegt ist, muss der Parameterwert Zielgeometrie auf ein projiziertes Koordinatensystem festgelegt sein.
Ausgaben
Beim Ausführen einer Eins-zu-viele-Verbindung werden alle Felder aus dem Ziel-Dataset und dem verbundenen Dataset in die Ausgabe aufgenommen. Falls in beiden Datasets ein Feld mit dem gleichen Namen vorhanden ist, wird an den Anfang des Namens des verbundenen Feldes das Wort "join" angefügt (z. B. join_fieldname).
Beim Ausführen einer Eins-zu-eins-Verbindung werden neben allen Feldern (einschließlich "Geometrie") aus dem Ziel-Dataset die folgenden Felder in die Ausgabe aufgenommen:
Feldname | Beschreibung |
---|---|
COUNT | Die Anzahl der verbundenen Datensätze. Dieses Feld ist immer in der Ausgabe enthalten. |
STATISTIC_fieldname | Für jede der angegebenen Statistiken wird ein Attributfeld mit einem Namen im folgenden Format erstellt: STATISTIC_Feldname. So hat beispielsweise der Maximalwert des Feldes id den Namen MAX_id. |
START_DATETIME | Dieses Feld gibt die Startzeit an und ist nur bei Verwendung zeitlicher Verbindungen enthalten. |
END_DATETIME | Dieses Feld gibt die Endzeit an und ist nur bei Verwendung räumlicher Verbindungen mit Intervallzeitwerten enthalten. |
Lizenzanforderungen
Die folgenden Lizenzen und Konfigurationen werden benötigt:
- Benutzertyp Creator oder Professional
- Publisher-, Vermittler- oder Administratorrolle oder eine entsprechende benutzerdefinierte Rolle
Weitere Informationen zu den Anforderungen für Data Pipelines finden Sie unter Anforderungen.
Verwandte Themen
Weitere Informationen finden Sie in den folgenden Themen: